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本 书 的 作者 队伍 是 由 南开 大 学 计算 机 系 、 国 家 计算 机 病毒 应 急 处 理 中 心 的 人 员 组 成 。 作 者 在 总 结 多 
年 网 络 安全 科研 与 教学 实践 经 验 的 基础 上 ,设计 了 12 个 “近似 实战 ”的 网 络 安全 软件 设计 与 编程 训练 的 课 
题 。 训 练 课题 覆盖 了 从 密码 学 在 网 络 通信 中 的 应 用 ,网 络 端 口 扫 描 、 网 络 嗅 探 器 网 络 诱骗 .网 络 入 侵 检 
W.E Web、 防 火 墙 ,到 Linux 内 核 网 络 协 议 栈 程序 加 固 、 网 络 病毒 与 垃圾 邮件 的 检测 与 防治 技术 。 训 练 
课题 接近 研究 的 前 沿 ,覆盖 了 网 络 安全 研发 的 主要 领域 与 方向 。 完 成 网 络 安全 训练 课题 的 操作 系统 选择 
为 Linux, 完 成 训练 课题 不 限定 任何 特殊 的 硬件 环境 与 编程 语言 。 通 过 在 Linux 环境 中 完成 网 络 安全 软件 
的 设计 与 编程 训练 ,提高 读者 研发 具有 自主 知识 产权 的 网 络 安全 技术 和 产品 的 能 力 。 

本 书 可 以 作为 计算 机 、 信 息 安全 、 软 件 工程 .通信 工程 .电子 信息 及 相关 专业 的 硕士 与 工程 硕士 研究 
生 、 博 士 研究 生 的 教材 或 参考 书 , 以 及 本 科 计 算 机 专业 ,信息 安全 专业 高 年 级 学 生 网 络 安 全 教材 或 参考 书 ， 
也 可 作为 网 络 安全 高 级 软件 编程 人 才 的 培训 教材 与 研发 工作 参考 手册 。 


本 书 封面 贴 有 清华 大 学 出 版 社 防伪 标签 ,无 标签 者 不 得 销售 。 
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未 来 的 社会 是 信息 化 的 社会 ,计算 机 科学 与 技术 在 其 中 占据 了 最 重要 的 地 位 ,这 对 高 素 
质 创新 型 计算 机 人 才 的 培养 提出 了 迫切 的 要 求 。 计 算 机 科学 与 技术 已 经 成 为 一 门 基础 技术 
学 科 , 理 论 性 和 技术 性 都 很 强 。 与 传统 的 数学 .物理 和 化 学 等 基础 学 科 相 比 , 该 学 科 的 教育 
工作 者 既 要 培养 学 科 理 论 研究 和 基本 系统 的 开发 人 才 , 还 要 培养 应 用 系统 开发 人 才 , 甚 至 是 
应 用 人 才 。 从 层次 上 来 讲 , 则 需要 培养 系统 的 设计 、 实 现 、 使 用 与 维护 等 各 个 层次 的 
人 才 。 这 就 要 求 我 国 的 计算 机 教育 按照 定位 的 需要 ,从 知识 、 能 力 、 素 质 三 个 方面 进行 人 才 
培养 。 

硕士 研究 生 的 教育 须 突出 “研究 ”, 要 加 强 理论 基础 的 教育 和 科研 能 力 的 训练 ,使 学 生 能 
够 站 在 一 定 的 高 度 去 分 析 研 究 问题 .解决 问题 。 硕 十 研究 生 要 通过 课程 的 学 习 , 进 一 步 提高 
理论 水 平 ,为 今后 的 研究 和 发 展 打 下 坚实 的 基础 ; 通过 相应 的 研究 及 学 位 论文 撰写 工作 来 
接受 全 面 的 科研 训练 .了解 科 学 研究 的 艰辛 和 科研 工作 者 的 奉献 精神 ,培养 良好 的 科研 作 
风 , 锻 炼 攻 关 能 力 , 养 成 协作 精神 。 

高 素质 创新 型 计算 机 人 才 应 具有 较 强 的 实践 能 力 , 教 学 与 科研 相 结合 是 培养 实践 能 力 
的 有 效 途径 。 高 水 平 人 才 的 培养 是 通过 被 培养 者 的 高 水 平 学 术 成 果 来 反映 的 ,而 高 水 平 的 
学 术 成 果 主 要 来 源 于 大 量 高 水 平 的 科研 。 高 水 平 的 科研 还 为 教学 活动 提供 了 最 先进 的 高 新 
技术 平台 和 创造 性 的 工作 环境 ,使 学 生得 以 接触 最 先进 的 计算 机 理论 .技术 和 环境 。 高 水 平 
的 科研 也 为 高 水 平 人 才 的 素质 教育 提供 了 良好 的 物质 基础 。 

为 提高 高 等 院 校 的 教学 质量 ,教育 部 最 近 实 施 了 精品 课程 建设 工程 。 由 于 教材 是 提高 
教学 质量 的 关键 ,必须 加 快 教材 建设 的 步伐 。 为 适应 学 科 的 快速 发 展 和 培养 方案 的 需要 ,要 
采取 多 种 措施 鼓励 从 事前 沿 研 究 的 学 者 参与 教材 的 编写 和 更 新 ,在 教材 中 反映 学 科 前 沿 的 
研究 成 果 与 发 展 趋势 ,以 高 水 平 的 科研 促进 教材 建设 。 同 时 应 适当 引进 国外 先进 的 原版 教 
材 ,确保 所 有 教学 环节 充分 反映 计算 机 学 科 与 产业 的 前 沿 研 究 水 平 ,并 与 未 来 的 发 展 趋势 相 
协调 。 

中 国 计 算 机 学 会 教育 专业 委员 会 在 清华 大 学 出 版 社 的 大 力 支 持 下 ,进行 了 计算 机 科学 
与 技术 学 科 硕 十 研究 生 培养 的 系统 研究 。 在 此 基础 上 组 织 来 自 多 所 全 国 重点 大 学 的 计算 机 
专家 和 教授 们 编写 和 出 版 了 本 系列 教材 。 作 者 们 以 自己 多 年 来 丰富 的 教学 和 科研 经 验 为 基 
础 ,认真 研究 和 结合 我 国 计 算 机 科学 与 技术 学 科 硕 十 研究生 教育 的 特点 ,力图 使 本 系列 教材 
对 我 国 计 算 机 科学 与 技术 学 科 硕 士 研 究 生 的 教学 方法 和 教学 内 容 的 改革 起 引导 作用 。 本 系 
列 教材 的 系统 性 和 理论 性 强 ,学 术 水 平 高 ,反映 科技 新 发 展 , 具 有 合适 的 深度 和 广度 。 同 时 
本 系列 教材 两 种 语种 (中 文英 文 ) 并 存 ,三 种 版 权 ( 本 版 ,外 版 .合作 出 版 ) 形 式 并 存 , 这 在 系 
列 教材 的 出 版 上 走出 了 一 条 新 路 。 
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相信 本 系列 教材 的 出 版 ,能 够 对 提高 我 国 计 算 机 硕士 研究 生 教材 的 整体 水 平 ,进而 对 我 
国 大 学 的 计算 机 科学 与 技术 硕士 研究 生 教育 以 及 培养 高 素质 创新 型 计算 机 人 才 产 生 积 极 的 
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计算 机 网 络 是 21 世纪 社会 数字 化 、 网 络 化 与 信息 化 的 基础 。 与 电力 系统 、 通 信 系 统一 
样 , 计 算 机 网 络 已 经 成 为 支持 现代 社会 整体 运行 的 基础 设施 ,人 们 须 奥 不 能 离开 。 但 是 ,我 
们 必须 清醒 地 认识 到 :计算 机 网 络 是 一 把 高 悬 在 全 人 类 头 上 的 双 刃 剑 。 人 类 社会 对 计算 机 
网 络 的 依赖 程度 越 高 ,网 络 安全 就 显得 越 重 要 。 网 络 安全 是 网 络 技术 研究 中 的 一 个 永恒 
主题 。 

网 络 安全 是 一 个 充满 活力 与 机 遇 的 领域 。 网 络 安全 技术 研究 与 教育 要 注意 以 下 10 个 
方面 的 问题 : 

(1) 人 类 创造 了 网 络 虚拟 社会 的 繁荣 ,也 制造 了 网 络 虚拟 社会 的 问题 。 网 络 安全 是 现 
实 社 会 问题 在 网 络 虚 拟 社会 中 的 反映 。 

(2) 当前 网 络 的 3 大 公害 是 :网 络 攻击 、 网 络 病毒 与 垃圾 邮件 。 网 络 威胁 的 趋 利 性 特征 
已 经 凸现 ,网 络 犯罪 的 专业 化 与 黑色 产业 链 正在 逐步 形成 。 

(3) 在 “攻击 一 防御 一 新 攻击 一 新 防御 ”的 循环 中 ,网 络 攻击 技术 与 网 络 反攻 击 技术 相 
互 影 响 、 相 互 制约 ,共同 发 展演 变 和 进化 。 目 前 网 络 攻 击 的 目的 已 经 从 最 初 好 奇 、 玩 世 不 共 
与 显示 技艺 高 超 ,发展 到 经 济 利益 驱动 的 有 组 织 犯罪 ,甚至 是 丽 怖 活动 。 同 时 ,网 络 攻击 已 
经 延伸 到 政治 与 军事 等 领域 。 

(4) 正如 现实 世界 危害 人 类 健康 的 各 种 “病毒 ”, 像 SARS 与 甲 型 HINI 流感 病毒 一 样 ， 
它 只 会 随 着 时 间 在 演变 ,不 可 能 灭绝 。 只 要 人 类 存在 ,就 一 定 会 存在 危害 人 类 健康 的 病毒 。 
同样 ,只 要 网 络 存在 ,计算 机 与 网 络 病毒 就 一 定 会 存在 。 网 络 是 传播 计算 机 病毒 的 重要 渠 
道 。 计 算 机 病毒 也 会 伴随 着 计算 机 与 网 络 技术 的 发 展 而 演变 ,不 可 能 停止 和 灭绝 。 病 毒 是 
计算 机 与 网 络 永远 的 痛 。 

(5) 随 着 互联 网 用 户 数量 的 剧 增 , 网 络 广告 的 经 济 效应 日 益 显 现 , 在 经 济 利益 驱动 下 ， 
垃圾 邮件 正 呈 现 日 趋 严重 的 态势 .已 经 造成 了 巨大 的 经 济 损失 与 社会 问题 。 当 前 ,网 络 攻 
击 、 病 毒 与 垃圾 邮件 呈现 出 相互 渗透 、 相 互利 用 的 趋势 。 如 何 检测 .过 制 网 络 攻击 、 病 毒 与 垃 
圾 邮件 的 蔓延 已 经 成 为 网 络 安全 最 重要 的 研究 课题 。 

(6) 密码 学 是 网 络 安全 研究 的 一 个 重要 的 工具 ,但 是 它 并 不 能 解决 所 有 的 问题 。 密 码 
学 涉及 的 是 数字 、 公 式 与 逻辑 。 数 学 是 完美 的 ,而 现实 社会 却 无 法 用 数学 准确 描述 。 数 学 是 
精确 和 遵循 逻辑 规律 的 ,而 计算 机 和 网 络 安全 涉及 的 是 人 .人 与 人 之 间 的 关系 以 及 人 和 机 器 
之 间 的 关系 。 人 是 有 和 欲望 的 ,是 不 稳定 的 ,甚至 是 难于 理解 的 。 网 络 安 全 性 存在 于 计算 机 硬 
件 与 软件 、 网 络 以 及 人 的 身上 。 

(7) 网 络 安全 是 一 个 系统 的 社会 工程 。 网 络 安全 的 研究 涉及 技术 文化 .道德 与 法 制 环 
境 等 多 个 方面 。 网 络 安全 性 是 一 个 链条 , 它 的 可 靠 程度 取决 于 链条 中 最 薄弱 的 环节 。 同 时 
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实现 网 络 安全 性 是 一 个 过 程 , 不 是 任何 一 个 产品 可 以 替代 的 。 在 加 强 网 络 安全 技术 研究 的 
同时 ,必须 加 快 网 络 法 制 的 建设 ,加 强人 们 网 络 法 制 观念 与 道德 的 教育 。 

(8) 网 络 安全 问题 已 经 上 升 到 国家 安全 的 战略 地 位 。 由 于 计算 机 网 络 与 互联 网 已 经 应 
用 于 现代 社会 的 政治 经 济 、 文 化 .教育 科学 研究 与 社会 生活 的 各 个 领域 ,因此 说 “发 达 国 家 
和 大 部 分 发 展 中 国家 都 是 运行 在 网 络 之 上 ”, 这 已 经 不 会 让 人 们 感到 吃惊 了 。 社 会 生活 越 依 
赖 于 网 络 ,网 络 安全 必然 会 成 为 影响 社会 稳定 、 国 家 安全 的 重要 因素 之 一 。 我 国政 府 高 度 重 
视 网 络 安全 技术 的 研发 与 政策 法 规 的 制定 。 

(9) 自主 研发 网 络 安全 技术 、 发 展 网 络 安全 产业 ,建立 自主 可 控 的 信息 安全 体系 是 关系 
到 社会 稳定 与 国家 安全 的 重大 问题 。 每 个 国家 必须 立足 于 本 国 , 研 究 网 络 安全 技术 ,培养 专 
门人 才 , 发 展 网 络 安全 产业 ,才能 构筑 本 国 的 网 络 与 信息 安全 防范 体系 。 哪 个 国家 不 高 度 重 
视 网 络 与 信息 安全 的 技术 研究 与 人 才 培 养 , 必 将 在 未 来 的 国际 竞争 中 处 于 被 动 和 危险 的 
境地 。 

(10) 支撑 和 服务 我 国信 息 社 会 .信息 产业 的 网 络 安全 产品 与 服务 的 核心 技术 必须 由 我 
的 技术 专家 掌握 。 这 是 事 关 国家 安全 ,社会 稳定 .产业 健康 发 展 的 重要 保障 因素 。 

从 事 网 络 安全 与 信息 安全 专业 的 技术 人 员 可 以 分 为 工程 师 、 高 级 工程 师 与 专家 等 多 个 
层次 ,社会 对 各 个 层次 人 才 的 需求 都 非常 强烈 。 大 学 教育 如 果 只 能 培养 使 用 网 络 安全 产品 
的 人 才 是 远 远 不 够 的 。 现 在 我 国 网 络 安全 产品 的 研发 很 多 是 在 国外 公开 的 网 络 安 全 开源 软 
件 上 进行 改进 。 这 种 方法 从 表面 上 看 是 一 条 “捷径 ”, 能 够 “ 立 笔 见 影 ”, 可 以 很 快 见 “ 成 效 ”， 
但 是 我 们 必须 清醒 地 认识 到 这 是 一 种 “短视 ”的 行为 ,并 且 存 在 巨大 和 潜在 的 危机 ,对 于 要 真 
正 形成 具有 我 国 自主 知识 产权 的 网 络 安全 产业 是 非常 不 利 的 。 

创新 是 一 个 民族 的 灵魂 ,而 在 网 络 与 信息 安全 领域 培养 具有 创新 能 力 的 高 水 平 人 才 , 产 
生 创 新 性 研究 成 果 , 开 发 具有 自主 知识 产权 的 产品 尤为 重要 。 作 为 是 多 年 从 事 网 络 安全 技 
术 研 究 与 教育 的 教师 和 科研 工作 者 ,大 家 深 知 自己 的 责任 重大 ,同时 也 深刻 地 认识 到 当前 我 
国 网 络 安全 课程 的 教学 水 平 还 远 不 能 满足 国家 与 社会 的 要 求 。 在 网 络 安 全 教学 过 程 中 , 教 
学 内 容 与 当前 技术 的 发 展 水 平 .理论 教 学 与 实际 工作 能 力 的 培养 差距 明显 。 这 些 问题 将 严 
重地 制约 网 络 安 全 人 才 的 培养 质量 与 学 生 的 就 业 竞争 力 , 从 长 远 发 展 看 也 将 严重 地 制约 具 
有 自主 知识 产权 的 技术 与 产品 的 发 展 。 大 学 在 对 高 层次 信息 安全 专门 人 才 的 培养 上 必须 要 
正视 这 个 问题 ,要 下 苦 功 夫 从 基础 开始 ,培养 能 够 产生 创新 思想 与 具备 研发 能 力 的 专门 
AT. 

本 书 具 有 如 下 几 个 特点 : 

(1) 作者 队伍 是 由 南开 大 学 信息 技术 科学 学 院 计算 机 系 、 国 家 计算 机 病毒 应 急 处 理 中 
心 的 人 员 组 成 的 ,具有 多 年 信息 安全 科研 工作 、 我 国 计 算 机 病毒 应 急 处 理工 作 , 以 及 本 科 、 硕 
士 与 博士 研究 生 教学 的 实践 经 验 。 作 者 通过 总 结 多 年 来 信息 安全 科研 工作 、` 计 算 机 病毒 应 
急 处 理工 作 以 及 本 科 、 硕 士 与 博士 研究 生 教学 工作 实践 经 验 ,参考 国内 外 知名 信息 安全 技术 
研究 部 门 与 企业 相关 资料 ,文献 的 基础 上 ,构思 了 全 书 的 写作 思路 ,设计 了 12 个 “近似 实战 ” 
的 网 络 安全 软件 设计 与 编程 训练 的 课题 。 

(2) 网 络 安全 软件 编程 训练 课题 可 以 分 为 :密码 学 及 应 用 、 网 络 安全 常规 技术 .当前 研 
究 热点 课题 的 综合 训练 等 3 个 部 分 。 训 练 课 题 覆 盖 了 从 密码 学 在 网 络 通信 中 的 应 用 ,网 络 
端口 扫描 、 网 络 嗅 探 器 、 网 络 诱骗 ,网络 人 侵 检测 、 安 全 Web、 防 火 墙 ,到 Linux 内 核 网 络 协 


m 


前 


议 栈 程序 加 固 、 网 络 病毒 与 垃圾 邮件 的 检测 与 防治 技术 。 训 练 课 题 接 近 学 科研 究 的 前 沿 , 覆 
盖 了 网 络 安全 研究 的 主要 方向 。 

(3) 完成 网 络 安全 训练 课题 的 操作 系统 环境 选择 为 Linux, 完 成 训练 课题 不 需要 限定 特 
殊 的 硬件 环境 和 编程 语言 。 这 样 做 的 目的 是 希望 能 够 充分 利用 Linux 开源 软件 的 优势 , 通 
过 在 Linux 环境 中 完成 网 络 安全 软件 的 设计 与 编程 训练 ,提高 读者 研发 具有 自主 知识 产权 
的 技术 与 产品 的 能 力 。 

(4) 从 研究 生 和 高 级 人 才 培 养 的 角度 ,应 该 强调 “研究 型 "与 “自主 型 的 学 习 方式 。 对 
于 研究 生 教 学 过 程 来 说 ,学 生 应 该 变 被 动 的 “听课 做 笔记 ”转向 主动 ` 研 究 地 学 习 和 提高 。 
从 任课 教师 与 导师 角度 应 该 强调 “因材施教 "。 不 同 基础 和 不 同 需求 的 读者 可 以 根据 个 人 的 
基础 ,学 习 与 工作 的 需要 ,选读 其 中 的 某 些 章节 ,完成 其 中 部 分 课题 的 编程 任务 。 

与 本 书 作为 姊妹 篇 的 是 4 计算 机 网 络 高 级 软件 编程 技术 》。 这 两 本 软件 编程 训练 教材 的 
写作 风格 是 统一 的 ,只 是 训练 的 目的 和 重点 不 同 。《 计 算 机 网 络 高 级 软件 编程 技术 》 训 练 的 
目的 是 帮助 读者 掌握 设计 与 开发 网 络 应 用 系统 的 能 力 ;《 网 络 安全 高 级 软件 编程 技术 》 训 练 
的 目的 是 帮助 读者 掌握 设计 与 开发 网 络 安全 系统 的 能 力 。《 计 算 机 网 络 高 级 教程 ) 与 (计算 
机 网 络 高 级 软件 编程 技术 》《 网 络 安全 高 级 软件 编程 技术 ) 构 成 了 一 套 计算 机 及 相关 专业 研 
究 生 关于 网 络 理论 研究 、 网 络 应 用 系统 与 网 络 安全 系统 设计 编程 能 力 培养 的 系列 教材 。 

研究 生 教材 不 应 该 仅 是 一 本 一 学 期 使 用 的 教科 书 , 更 应 该 是 一 本 技术 参考 书 , 甚 至 是 一 
本 手册 。 导 师 可 以 根据 需要 选择 教材 中 的 部 分 内 容 , 作 为 基本 的 学 习 要 求 。 学 生 学 习 的 过 
程 应 该 在 导师 的 指导 下 有 选择 地 自学 和 阅读 ,完成 编程 训练 。 有 些 内 容 可 能 第 一 次 仅仅 是 
读 过 和 了 解 ,如 果 今 后 科研 、 开 发 工作 需要 ,可 以 再 回 过 头 来 继续 阅读 和 参考 。 

作为 研究 生 与 网 络 安全 高 级 人 才能 力 培养 的 教材 ,希望 读者 能 够 在 阅读 书 中 相关 章节 
之 后 ,独立 地 完成 课题 的 编程 任务 。 从 严格 训练 的 角度 出 发 , 书 中 只 提供 了 解决 问题 的 思 
路 ,给 出 了 启发 读者 的 编程 示例 ,书后 所 附 的 光盘 中 给 出 了 编程 所 需要 的 编程 工具 与 测试 数 
据 集 ,希望 读者 通过 阅读 相关 的 章节 ,结合 自己 已 经 掌握 的 网 络 知识 与 基本 编程 方法 ,独立 
地 完成 训练 课题 的 要 求 , 克 服 浮 燥 的 情绪 , 气 弃 抄袭 的 陋习 ,通过 下 苗 功 夫 、 扎 扎实 实地 训 
练 ,深入 理解 理论 知识 ,提高 实践 能 力 .使 研究 生 与 从 事 网 络 安全 工作 的 工程 技术 人 员 在 学 
习 过 程 中 体会 到 “研究 型 "与 自主 型 "学 习 的 快乐 。 

全 书 由 吴 功 宜 构 思 、 组 织 编写 与 统 稿 。 第 1 章 由 吴 功 宜 执笔 完成 ,第 2 章 由 陈 志 执笔 完 
成 ,第 4 章 、 第 9 章 和 第 12 章 由 董 大 凡 执笔 完成 .第 5 章 、 第 8 章 、 第 10 SC VE SLE DUE ë 
成 ,第 3 章 、 第 7 章 由 王 雪 飞 执笔 完成 .第 6 章 、 第 11 章 由 胡 紫 执笔 完成 ,第 13 章 由 张 建 忠 
执笔 完成 ,第 14 章 由 张 健 、 杜 振 华 和 舒心 执笔 完成 。 

在 本 书 的 写作 过 程 中 得 到 了 我 国 著名 的 信息 安全 专家 沈 昌 祥 院 士 的 多 方 指导 ,得 到 了 
南开 大 学 信息 技术 科学 学 院 计算 机 系 “ 网 络 与 信息 安全 研究 室 ” 的 老师 和 同学 们 的 很 多 帮 
助 , 特 别 感谢 刘 瑞 挺 教授 、 徐 敬 东 教 授 以 及 苏 明 副 教授 . 吴 英 副教授 . 古 力 老师 的 帮助 。 

同时 ,本 书 也 是 在 与 国家 计算 机 应 急 处 理 中 心 合作 建设 计算 机 病毒 防治 技术 国家 工程 
实验 室 等 项 目 中 所 取得 的 成 果 。 在 写作 过 程 中 得 到 了 国家 计算 机 病毒 应 急 处 理 中 心 张 津 弟 
主任 的 悉心 指导 ,在 此 表示 诚挚 的 感谢 ,同时 感谢 国家 计算 机 病毒 应 急 处 理 中 心 全 体 同志 
支持 与 帮助 。 

本 书 可 以 作为 计算 机 、 信 息 安全 、 软 件 工程 .通信 工程 .电子 信息 及 相关 专业 的 硕士 与 工 
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程 硕士 研究 生 ,博士 研究 生 的 教材 以 及 本 科 计 算 机 专业 、 信 息 安 全 专业 高 年 级 网 络 安全 课程 
的 教材 和 参考 书 , 也 可 作为 网 络 安全 软件 编程 高 级 人 才 的 培训 教材 与 研发 工作 参考 手册 。 

限于 作者 的 学 术 水 平 , 书 中 错误 与 不 妥 之 处 在 所 难免 。 我 们 衷心 地 和 希望 读者 的 批评 指 
正 ,共同 提高 我 国 网 络 安全 教学 .研究 与 产业 研发 水 平 。 


作者 

于 南开 大 学 信息 技术 科学 学 院 网 络 与 信息 安全 研究 室 
国家 计算 机 病毒 应 急 处 理 中 心 
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^ 1 së 
网 络 安全 课程 内 容 、 编 程 训练 要 求 


与 教学 指导 


本 章 在 系统 总 结 网 络 安全 技术 特点 、 网 络 安全 课程 包括 的 主要 内 容 的 基础 上 ,对 网 络 安 
全 软件 编程 训练 课题 设置 的 目的 与 训练 要 求 , 以 及 相关 的 教学 方法 及 进度 安排 提出 建议 。 


1.1 网 络 安全 技术 的 特点 


1.1.1 网 络 安全 与 现代 社会 安全 的 关系 


生活 在 现实 世界 的 人 类 创造 了 网 络 虚拟 社会 的 繁荣 ,同时 也 造成 了 网 络 虚拟 社会 的 问 
题 。 现 实 世界 中 真善美 的 东西 ,网 络 的 虚拟 社会 都 有 。 同 样 , 现 实 社会 中 丑陋 的 东西 ,网 络 
的 虚拟 社会 一 般 也 会 有 ,只 是 表现 形式 不 一 样 。 如 果 透 过 复杂 的 技术 术语 和 计算 机 屏幕 ,人 
们 会 发 现 ; 计算 机 网 络 的 虚拟 社会 和 现实 社会 ENOAT BRE Ded 
之 间 , 在 很 多 方面 都 存在 着 * 对 应 "关系 。 现 实 
社会 中 人 与 人 在 交往 中 形成 了 复杂 的 社会 与 
经 济 关 系 ,在 网 络 社会 中 ,这 些 社会 与 经 济 关 
系 以 数字 化 的 方式 延续 着 。 图 1-1 形象 地 描述 
了 这 个 规律。 

网 络 安全 是 现实 社会 安全 的 反映 。 网 络 
安全 问题 实际 上 是 个 社会 问题 , 光 靠 技术 来 解 
决 这 些 问题 是 不 可 能 的 。 网 络 安全 是 一 个 系 
统 的 社会 工程, 它 涉及 技术 、 政 策 .道德 与 法 律 
法 规 等 多 方面 。 


1.1.2 网 络 安全 与 信息 安全 的 关系 


应 用 是 网 络 存在 和 发 展 的 理由 。 所 有 的 信息 系统 与 现代 服务 业 都 是 建立 在 计算 机 网 络 
与 Internet 环境 之 中 的 。 正 是 由 于 这 个 原因 ,可 以 说 网 络 应 用 系统 的 安全 都 是 建立 在 计算 
机 网 络 安全 的 基础 之 上 的 。 图 1-2 给 出 了 网 络 安 全 与 计算 机 安全 、 应 用 系统 安全 以 及 用 户 
信息 安全 关系 的 示意 图 。 

用 户 的 各 种 信息 被 保存 在 不 同类 型 的 应 用 系统 之 中 ,这 些 应 用 系统 都 是 建立 在 不 同 的 
计算 机 系统 之 中 的 。 计 算 机 系统 包括 硬件 操作 系统 、 数 据 库 系统 等 ,它们 是 保证 各 类 信息 


也 是 人 制造 了 网 络 虚拟 社会 的 很 多 问题 
图 1-1 网 络 虚拟 社会 与 现实 社会 的 关系 示意 图 
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系统 正常 运行 的 基础 。 而 运行 信息 系统 的 大 型 
服务 器 或 服务 器 集群 及 用 户 的 个 人 计算 机 都 是 
以 固定 或 移动 的 方式 接 入 到 计算 机 网 络 与 


Internet 中 的 。 任 何 一 种 网 络 功能 的 服务 实现 
都 需要 通过 网 络 在 不 同 的 计算 机 系统 之 间 多 次 
进行 数据 与 协议 信息 交换 。 例 如 ,每 一 个 人 都 会 


使 用 银行 卡 购物 ,使 用 电子 邮件 发 送 和 接收 邮 — 图 1-。 网 络 安全 与 计算 机 安全 ,应 用 系统 
件 , 利 用 浏览 器 访问 Web 站 点 ,使 用 QQ 与 朋友 安全 ,用 户 信息 安全 关系 示意 图 
聊天 。 

病毒 ,木马 蠕虫 .脚本 攻击 代码 等 恶意 代码 利用 E-mail, FTP 与 Web 系统 进行 传播 ， 
网 络 攻击 .网络 诱骗 ,信息 窃取 也 都 是 在 网 络 环境 中 进行 的 。 网 络 安全 是 信息 系统 安全 的 基 
础 ,不 能 保证 网 络 的 安全 性 ,信息 系统 的 安全 性 就 无 从 谈 起 。 因 此 ,网 络 安全 研究 是 信息 安 
全 研究 的 重要 组 成 部 分 ,也 是 信息 安全 研究 的 基础 。 


1.1.3 网 络 安全 与 网 络 新 技术 的 关系 


按照 正常 人 的 思维 方式 ,一 位 技术 人 员 在 研究 和 开发 一 种 基于 网 络 的 新 的 应 用 技术 与 
系统 时 ,只 会 想到 这 种 应 用 可 以 给 人 们 的 生活 和 工作 带 来 什么 样 的 好 处 和 乐趣 ,一 般 不 会 想 
到 黑客 或 居心 不 良 的 人 会 利用 这 种 技术 做 什么 坏事 。 而 黑客 恰恰 是 一 类 逆向 思维 和 不 按 正 
常规 律 办 事 的 人 ,他 们 不 遵守 正常 人 所 遵循 的 道德 规范 。*Everything over IP, IP over 
everything” 说 明了 计算 机 网 络 技术 的 成 功 , 但 是 它 所 带 来 的 问题 也 是 网 络 技术 人 员 始 料 未 
及 的 。P2P 是 一 种 十 分 有 价值 的 网 络 应 用 模式 ,但 是 P2P 除了 可 以 方便 信息 共享 之 外 , 同 
时 也 给 恶意 代码 的 传播 提供 了 一 种 新 的 途径 。 手 机 病毒 的 出 现 与 无 线 射频 标识 RFID 芯片 
可 能 感染 病毒 的 研究 结果 公布 ,表明 移动 设备 将 成 为 黑客 和 恶意 软件 编写 者 下 一 个 主攻 的 
目标 。 

网 络 技术 不 是 在 真空 之 中 ,计算 机 网 络 是 要 提供 给 全 世界 的 用 户 使 用 的 ,网 络 技术 人 员 
在 研究 和 开发 一 种 新 的 基于 网 络 的 应 用 技术 与 系统 时 ,必须 面 对 这 样 一 个 复杂 的 局 面 。 成 
功 的 网 络 应 用 技术 与 成 功 的 应 用 系统 的 标志 是 功能 性 与 安全 性 的 统一 。 网 络 安全 问题 不 应 
该 简单 地 认为 是 从 事 网 络 安全 技术 工程 师 的 事 , 也 是 每 位 信息 技术 领域 的 工程 师 与 管理 人 
员 需 要 共同 面 对 的 问题 。 


1.1.4 网 络 安全 与 密码 学 的 关系 


密码 学 是 信息 安全 研究 的 重要 工具 ,密码 学 在 网 络 安全 中 有 很 多 重要 的 应 用 ,但 是 网 络 
安全 涵盖 的 问题 远 远 超出 了 密码 学 涉及 的 范围 。 人 们 对 密码 学 与 网 络 安全 的 关系 的 认识 有 
一 个 过 程 ,这 个 问题 可 以 用 美国 著名 的 密码 学 专家 Bruce Schneier 在 (Secrets and Lies: 
Digital Security in a Networked World) 一 书 的 前 言 中 讲述 的 观点 来 说 明 。Schneier 在 1996 
年 出 版 了 一 本 在 信息 安全 方面 非常 经 典 的 书 (Applied Cryptography). 2000 年 他 又 出 版 了 
该 书 的 第 二 版 。 他 在 第 二 版 的 前 言 中 说 明 , 他 写 第 二 版 的 动机 之 一 是 为 了 纠正 第 一 版 的 一 
个 错误 。 他 说 ,在 第 一 版 中 * 我 描述 了 一 个 数学 的 乌托邦 : 密码 算法 能 将 你 最 深 的 秘密 保持 
数 千年 "。 但 是 ,他 现在 认为 :“ 事 实 并 非 如 此 .密码 学 并 不 能 做 那么 多 的 事 .” 密 码 学 并 非 存 
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在 于 真空 之 中 。 密 码 学 是 数学 的 一 个 分 支 , 它 涉及 数字 、 公 式 与 逻辑 。 数 学 是 完美 的 ,而 现 
实 社会 却 无 法 用 数学 准确 地 描述 。 数 学 是 精确 的 和 遵循 逻辑 规律 的 ,而 计算 机 和 网 络 安全 
涉及 的 是 人 所 知道 的 事 , 人 与 人 之 间 的 关系 以 及 人 和 机 器 之 间 的 关系 。 人 是 有 和 欲望 的 ,是 不 
稳定 的 ,甚至 是 难于 理解 的 。Schneier 在 出 版 该 书 的 第 一 版 之 后 就 成 了 美国 分 析 和 设计 一 
些 大 型 信息 系统 安全 问题 的 顾问 。 但 是 后 来 的 经 历 告 诉 他 ,安全 性 的 弱点 与 数学 “ 毫 无 关 
系 ”, 它 们 存在 于 硬件 ,软件 .网络 和 人 的 身上 。 他 认识 到 :“ 安 全 性 是 一 个 链条 , 它 的 可 靠 程 
度 取决 于 链条 中 最 薄弱 的 环节 。” 同 时 ,他 认为 :“ 安 全 性 是 一 个 过 程 ,而 不 是 一 种 产品 。” 

从 一 位 数学 家 的 认识 转变 中 得 到 的 启示 是 : 密码 学 是 研究 网 络 安全 所 必需 的 一 个 重要 
的 工具 与 方法 ,但 是 网 络 安全 研究 所 涉及 的 问题 要 广泛 得 多 。 


1.1.5 网 络 安全 与 国家 安全 战略 的 关系 


1. 网 络 安全 对 国家 安全 的 影响 


由 于 计算 机 网 络 与 互联 网 已 经 应 用 于 现代 社会 的 政治 、 经 济 文化 .教育 .科学 研究 与 社 

会 生活 的 各 个 领域 ,因此 说 “发 达 国家 和 大 部 分 发 展 中 国家 都 是 运行 在 网 络 之 上 的 ”, 这 已 经 
会 让 人 们 感到 吃惊 了 。 社 会 生活 越 依 赖 于 网 络 ,网 络 安全 就 必然 会 成 为 影响 社会 稳定 、 国 
家 安全 的 重要 因素 之 一 。 下 面 引 用 了 一 些 人 的 话 从 另外 一 个 角度 去 印证 这 个 观点 。 

2000 年 1 月 7 日 美国 前 总 统 克 林 顿 签署 的 (美国 国家 信息 系统 保护 计划 》 中 有 这 样 一 
段 话 :“ 在 不 到 一 代 人 的 时 间 内 ,信息 革命 和 计算 机 在 社会 所 有 方面 的 应 用 ,已 经 改变 了 我 
们 的 经 济 运行 方式 ,改变 了 我 们 维护 国家 安全 的 思维 ,也 改变 了 我 们 日 常生 活 的 结构 ”。 

著名 的 未 来 学 家 托 尔 勤 预言 :“ 谁 掌握 了 信息 , 谁 控制 了 网 络 , 谁 就 将 拥有 世界 .著名 
的 军事 预测 学 者 在 (下 一 场 世界 战争 ) 一 书 中 预言 :“ 在 未 来 的 战争 中 ,计算 机 本 身 就 是 武 
器 ,前 线 无 处 不 在 ,夺取 作战 空间 控制 权 的 不 是 炮弹 和 子弹 ,而 是 计算 机 网 络 里 流动 的 比特 
MFW” 

在 “攻击 一 防御 一 新 攻击 一 新 防御 ”的 循环 中 ,网 络 攻击 技术 与 网 络 安全 技术 在 一 起 演 
变 和 发 展 ,这 个 过 程 不 会 停止 。 但是, 网络 安全 问题 似乎 已 经 超出 了 技术 和 传统 意义 上 的 计 
算 机 犯罪 的 范畴 ,开始 发 展 成 为 一 种 政治 与 军事 手段 。 在 2002 年 ,James F. Dunnigan 出 版 
的 (黑客 的 战争 一 一 下 一 个 战争 地 带 ) 一 书 中 描述 ,2001 年 阿富汗 战争 中 美国 为 了 配合 武装 
战争 ,实施 了 信息 战 .新 闻 战 和 黑 掉 对 方 银行 账户 等 各 种 信息 战 方法 。2001 4E 11 H 11 H 
以 来 ,有 记录 显示 很 多 中 东 与 其 他 地 区 的 黑客 试图 黑 掉 美国 发 电厂 的 网 站 ,并 试图 进入 美国 
和 欧洲 的 核电 站 控制 系统 。 电 力 控制 .通信 管理 ,城市 交通 控制 .航空 管制 系统 .GPS 系统 
与 大 型 楼 宇智 能 控制 系统 都 建立 在 计算 机 网 络 之 上 ,今后 都 可 能 成 为 黑客 和 网 络 战 
(cyberwar) 攻 击 的 目标 。 

“cyber” 一 词 来 源 于 希腊 语 , 指 的 是 “控制 ”。 这 些 以 前 只 出 现在 电影 大 片 中 的 故事 ,已 
经 变 成 现实 必须 预防 和 解决 的 问题 。 一 场 成 功 的 网 络 战争 的 关键 是 计划 和 网 络 系统 弱点 。 
计划 包括 人 力 ,技术 . 工 具 与 网 络 武器 等 条 件 的 准备 。 弱 点 的 大 小 则 取决 于 对 方 对 网 络 的 依 
赖 程度 ,以 及 对 网 络 系统 安全 建设 的 重视 程度 。 
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2. 信息 时 代 国 家 安全 战略 重点 的 转移 


美国 和 一 些 发 达 国家 都 已 经 将 防范 和 应 对 攻击 与 破坏 关键 信息 基础 设施 作为 信息 时 代 国 
家 安全 战略 的 重点 。 这 个 问题 可 以 从 美国 最 近 举 行 的 大 规模 “网 络 风暴 ”演习 中 清楚 地 看 出 。 

2006 年 美国 ,英国 等 4 国 举行 了 “网 络 风暴 工 ”演习 。 演 习 模 拟 了 恺 怖 分 子 、 黑 客 等 发 
起 破坏 性 网 络 攻击 ,导致 能 源 、 运 输 和 医疗 系统 瘫 疾 , 网 络 银行 和 销售 系统 出 错 ,软件 公司 发 
售 光盘 染 毒 等 危险 时 的 应 急 处 置 措施 与 能 力 。 

2008 4£ 3 月 10—14 日 美国 国土 安全 部 举行 了 第 2 次 为 期 一 周 、 代 号 为 “网 络 风暴 TE" 
的 网 络 战争 演习 ,以 全 面 检验 国家 网 络 安全 和 应 急 能 力 。 这 次 演习 耗资 620 万 美元 , 仅 制订 
预案 就 耗 时 18 个 月 。 参 加 本 次 演习 的 共有 18 个 联邦 机 构 、9 个 州 ,40 家 公司 及 5 个 国家 。 
此 次 演习 采用 模拟 真实 环境 中 对 网 络 的 攻击 情况 ,演习 项 目 包括 黑客 入侵 、 网 络 欺诈 、 对 服 
务 器 攻击 等 1800 个 项 目 。 演 习 模 拟 了 政府 机 构 .银行 通信、 信息、 能 源 、 航 空 与 铁路 运输 等 
重要 行业 的 网 络 系统 遭受 联合 攻击 时 ,网 络 安全 专家 应 对 攻击 的 处 理 能 力 。 演 习 的 目的 就 
是 针对 各 部 门 . 各 企业 的 网 络 漏洞 ,检验 它们 的 网 络 应 急 计划 和 遭 袭 击 后 迅速 恢复 的 能 力 ， 
检验 国家 网 络 安全 状况 和 应 急 处 理 协调 能 力 。 演 习 还 设置 了 一 些 环节 ,检验 美国 政府 绝密 的 
“ 爱 因 斯 坦 计划 ”网 络 安全 软件 对 入 侵 检测 和 网 络 系统 安全 的 监控 能 力 。“ 爱 因 斯 坦 计划 "是 研 
究 和 开发 用 于 检测 美国 政府 网 站 是 否 遭 到 入 侵 ,以 及 监控 整个 网 络 系统 安全 的 软件 系统 。 

美国 国土 安全 部 的 官员 说 ,国外 机 构 和 私营 企业 参与 演习 是 非常 必要 的 。 因 为 私营 高 
科技 信息 公司 控制 了 美国 80% 的 信息 产业 设施 ,它们 在 美国 信息 安全 中 扮演 着 重要 角色 。 
同时 一 次 针对 美国 的 网 络 攻 击 可 能 是 从 世界 上 不 同 的 地 方 发 起 的 ,并 且 这 些 攻 击 可 能 是 针 
对 或 利用 私营 企业 拥有 的 网 络 基础 设施 进行 的 。 

这 次 演习 的 参与 者 还 要 接受 辨别 真 假 威胁 的 挑战 。 协 助 制订 演习 预案 的 国土 安全 部 的 
官员 说 ,演习 参与 者 需要 通过 电子 邮件 ,电话 及 模拟 电视 新 闻 频 道 ,了 解 他 们 面 对 的 问题 和 
网 络 现状 ,但 其 中 有 一 些 是 混淆 视听 的 假 信息 。 这 些 干扰 信息 用 于 分 散 情 报 分 析 人 员 和 公 
司 负责 人 员 的 注意 力 。 本 项 测试 的 目的 是 检验 他 们 鉴别 信息 真 伪 的 能 力 。 


3. 发 达 国家 互联 网 应 用 新 的 动向 


美国 在 网 络 安全 方面 一 直 不 遗 余力 。2009 年 5 月 ,美国 总 统 奥巴马 批准 公布 了 国家 网 
络 安全 评估 报告 ,指出 来 自 网 络 空间 的 威胁 已 成 为 美国 面临 的 最 严重 的 经 济 和 军事 威胁 之 
— 6 月 ,美国 国防 部 长 罗伯特 。 羔 获 正式 宣布 成 立 “ 网 络 战 ”司令 部 ,成 为 世界 上 第 一 个 创 
建 网 络 战 司令 部 的 国家 。9 月 ,国外 媒体 报道 说 ,美国 参议 院 提交 了 一 份 议案 ,计划 赋予 总 
统 在 紧急 状态 下 关闭 互联 网 服务 的 权利 ,但 因 遭 到 本 国 互联 网 企业 和 个 体 的 强烈 反对 而 搁 
置 。10 月 1 日 ,美国 国土 安全 部 长 珍妮 特 * 纳 波 利 塔 诺 表示 ,她 所 领导 的 部 门 已 经 获准 在 
未 来 3 年 招募 1000 名 网 络 安全 专家 。 这 是 美国 继 设立 网 络 战 司令 部 之 后 ,在 网 络 安全 领域 
采取 的 又 一 重要 措施 。 同 时 ,美国 还 要 求全 社会 的 个 人 和 机 构 都 参与 到 网 络 安保 中 来 ,从 而 
将 网 络 安保 工作 渗透 到 了 全 社会 。 报 道 援引 纳 波 利 塔 诺 的 话说 “这 项 新 的 招募 权 将 允许 国 
土 安全 部 招募 顶尖 的 网 络 分 析 师 、 开 发 人 员 和 工程 师 , 通 过 领导 国家 反 网 络 威胁 的 工作 为 国 
家 服务 ”。 纳 波 利 塔 诺 表示 ,新 招募 的 网 络 专 家 将 “帮助 国土 安全 部 完成 保卫 国家 网 络 基础 
设施 .系统 和 网 络 的 广泛 任务 "。“ 新 招募 的 网 络 专家 将 完成 各 种 任务 ,如 网 络 风险 和 战略 分 
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析 、 网 络 事故 回应 漏洞 监控 与 评估 、 情 报 与 调查 ,还 有 网 络 和 系统 工程 >。 美国 总 统 奥巴马 
宣布 2009 年 10 月 为 美国 “国家 网 络 安全 意识 月 ”, 并 在 发 言 中 说 ;“ 网 络 攻击 及 其 感染 网 
络 、 设 备 和 软件 的 病毒 能 力 必须 引起 全 美国 人 的 关注 ”他 还 表示 ,政府 有 责任 将 “数字 基础 
设施 作为 一 项 战略 性 的 国家 资产 "“ 是 国家 安全 的 优先 重点 ”。 

从 这 些 动态 中 ,我 们 可 以 清醒 地 认识 到 : 网 络 安全 问题 已 成 为 信息 化 社会 的 一 个 焦点 。 
每 个 国家 只 有 立足 于 本 国 ,研究 网 络 安全 技术 ,培养 专门 人 才 , 发 展 网 络 安全 产业 ,才能 构筑 
本 国 的 网 络 与 信息 安全 防范 体系 。 自 主 研发 网 络 安全 技术 ,发 展 网 络 安全 产业 是 关系 到 一 
个 国家 国计民生 与 国家 安全 的 重大 问题 。 哪 个 国家 不 重视 网 络 与 信息 安全 ,它们 必 将 在 未 
来 的 国际 竞争 中 处 于 被 动 和 危险 的 境地 。 


1.2 网 络 安全 形势 的 演变 


1.2.1 Internet 安全 威胁 的 总 体 发 展 趋势 


计算 机 网 络 与 Internet 是 高 悬 在 全 人 类 头 上 的 一 把 双 刃 剑 。 一 个 方面 ,计算 机 网 络 与 
Internet 的 应 用 对 于 各 国 的 政治 ,经 济 、 科 学 ,文化 ,教育 与 产业 的 发 展 起 到 了 重要 的 推动 作 
用 。 另 一 方面 ,人 们 也 对 它 的 负面 影响 忧心 刷 促 。 因 此 ,网 络 安全 的 研究 一 直 是 伴随 着 网 络 
技术 与 应 用 的 发 展 而 进步 的 。 网 络 安全 是 网 络 技术 研究 中 的 一 个 永恒 的 主题 。 

近年 来 Internet 安全 威胁 的 总 体 趋势 是 : 

(1) 受 经 济 利益 驱动 ,网 络 攻击 的 动机 已 经 从 初期 的 恶作剧 .显示 能 力 、 寻 求 刺 激 , 逐 步 
向 有 组 织 的 犯罪 方向 发 展 , 甚 至 是 形成 有 组 织 的 跨国 经 济 犯罪 。 

(2) 网 络 菲 犯 正 逐步 形成 黑色 产业 链 ,网 络 攻击 日 趋 专业 化 和 商业 化 。 

(3) 网 络 犯罪 活动 的 范围 将 随 着 Internet 的 普及 ,逐渐 从 经 济 发 达 国家 与 地 区 向 一 些 
发 展 中 国家 和 地 区 发 展 。 

(4) 网 络 攻击 开始 出 现 超出 传统 意义 上 的 网 络 犯罪 的 概念 ,正在 逐渐 演变 成 某 些 国家 
或 利益 集团 的 重要 的 政治 .军事 工具 ,以 及 恐怖 分 子 的 活动 工具 。 

图 1-3 给 出 了 2002—2009 年 网 络 安全 威胁 特点 的 演变 情况 。 从 图 中 可 以 清楚 地 看 出 ， 
网 络 攻击 已 经 从 早期 的 恶作剧 和 简单 的 破坏 性 攻击 发 展 到 有 组 织 的 犯罪 ,这 一 点 必须 引起 
我 们 的 高 度 重视 。 


1.2.2 近期 网 络 安全 威胁 的 主要 特点 


网 络 安全 威胁 呈现 出 以 家 庭 用 户 作 为 最 主要 的 被 攻击 目标 ,网 络 Web 浏览 器 仍然 是 攻 
击 的 主要 目标 ,攻击 活动 的 动机 已 经 从 恶作剧 、 寻 求 刺激 .表现 技术 的 高 超 ,转向 有 组 织 的 经 
济 犯罪 。 近 期 网 络 安全 威胁 的 主要 特点 如 下 。 


1. 地 下 交易 体系 呈现 专业 化 与 商业 化 的 趋势 


地 下 交易 体系 呈现 专业 化 与 商业 化 的 趋势 。 通 过 社交 网 站 与 假冒 安全 软件 进行 诈骗 用 
户 敏感 信息 的 事件 明显 增加 。 在 网 络 攻 击 中 ,90% 的 攻击 是 针对 用 户 的 机 密 信息 ,如 银行 账 
户 、 信 用 卡 信息 等 ,这 种 攻击 目前 仍 呈 增长 趋势 。 
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2. 智能 手机 成 为 新 的 攻击 目标 


3G 手机 的 应 用 ,使 得 能 够 访问 互联 网 的 智能 手机 成 为 网 络 攻击 的 下 一 个 目标 ,病毒 制 
作者 已 经 瞄准 苹果 机 的 MAC 操作 系统 与 iPhone 软件 制作 新 病毒 。 第 一 款 针对 iPhone 软 
件 的 病毒 已 经 开始 流传 。 


3. 受 网 络 病毒 感染 的 网 页 数量 与 垃圾 邮件 数量 持续 攀升 


网 页 已 取代 网 络 成 为 攻击 活动 的 主要 渠道 , 越 来 越 多 的 在 线 用 户 会 因为 访问 一 些 日 常 
的 网 站 而 受到 感染 。 根 据 统计 ,2009 年 上 半年 每 3. 6 秒 钟 就 有 一 个 网 页 被 病毒 感染 ,其 感 
染 网 页 的 数量 是 2008 年 同期 的 4 倍 。2009 年 的 商业 邮件 中 的 89.7% 是 垃圾 邮件 。 


4. Web 2.0 与 搜索 引擎 服务 成 为 黑客 攻击 的 重点 


Web 2.0 与 搜索 引擎 开放 的 网 络 应 用 程序 接口 API, 使 得 它们 又 一 次 成 为 黑客 攻击 和 
利用 的 目标 。 随 着 越 来 越 多 的 网 络 服务 的 推出 ,黑客 利用 Web API 服务 来 获得 用 户 信 任 ， 
达到 窃取 用 户 信息 的 目的 。 


1.3 网 络 安全 技术 研究 的 基本 内 容 


1.3.1 网 络 安全 技术 研究 内 容 的 分 类 


网 络 安全 技术 研究 的 目的 是 保证 网 络 环境 中 传输 ,存储 与 处 理 信息 的 安全 性 。 总 结 近 
年 来 网 络 安全 研究 的 内 容 方法 与 技术 的 发 展 , 可 以 将 网 络 安全 研究 归纳 为 如 图 1-4 所 示 的 
结构 。 
网 络 安全 技术 研究 主要 包括 以 下 4 个 方面 的 内 容 。 


1. 网 络 安全 体系 结构 的 研究 


网 络 安全 体系 结构 的 研究 主要 涉及 网 络 安全 威胁 分 析 、 网 络 安全 模型 与 确定 网 络 安全 
体系 以 及 对 系统 安全 评估 的 标准 和 方法 的 研究 。 根 据 对 网 络 安全 威胁 的 分 析 , 确 定 需 要 保 
护 的 网 络 资源 ,对 资源 攻击 者 、 攻 击 目 的 与 手段 ,造成 的 后 果 进 行 分 析 ; 提 出 网 络 安全 模型 ， 
并 根据 层次 型 的 网 络 安全 模型 ,提出 网 络 安全 解决 方案 。 网 络 安全 体系 结构 研究 的 另 一 个 
重要 内 容 是 系统 安全 评估 的 标准 和 方法 ,这 是 评价 一 个 实际 网 络 应 用 系统 安全 状况 的 标准 ， 
是 提出 网 络 安全 措施 的 依据 。 


2. 网 络 安全 防护 技术 


网 络 安全 防护 技术 的 研究 涉及 防火 墙 技术 .入 侵 检 测 技术 与 防 攻 击 技术 、 防 病毒 技术 、 
安全 审计 与 计算 机 取证 技术 以 及 业务 持续 性 技术 。 


3. 密码 应 用 技术 
密码 应 用 技术 的 研究 涉及 包括 对 称 密码 体制 与 公 钥 密码 体制 的 密码 体系 ,以 及 在 此 基 
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网 络 安全 网 络 安全 体系 结构 [一 -一 | 网 络 安全 威胁 分 析 


pimeeemm | 
网 络 安全 防护 技术 | | 防火墙 技术 
[passt 
Heemer | 
[UAR | 
密码 应 用 技术 。 jH 密码 体系 

| 消息 验证 与 数字 签名 
| 公 钥 基础 设施 PKI 技 术 
—] 信息 隐藏 技术 

网 络 安全 应 用 技术 | | 正安 全 与 IPSec 

H VPN 技 术 

| 电子 邮件 安全 技术 


图 1-4 网 络 安全 技术 研究 内 容 的 分 类 图 


础 上 主要 研究 的 消息 认证 与 数字 签名 技术 信息 隐藏 技术 、 公 钥 基 础 设施 PKI 技术 。 
4. 网 络 安全 应 用 


网 络 安全 应 用 技术 研究 主要 包括 IP 安全 、VPN 技术 .电子 邮件 安全 .Web 安全 与 网 络 
信息 过 滤 技 术 。 


1.3.2 网 络 攻击 的 分 类 


1. 网 络 攻击 的 基本 概念 


有 经 验 的 网 络 安 全 人 员 都 有 一 个 共识 : 知道 自己 被 攻击 就 赢 了 一 半 。 但 是 问题 的 关键 
是 : 怎么 知道 自己 已 经 被 攻击 了 。 人 入 侵 检测 技术 就 是 检测 人 侵 行为 ,因此 研究 人 侵 检测 技 
术 是 网 络 安全 研究 中 最 重要 的 课题 之 一 。 

在 十 几 年 之 前 ,网 络 攻击 还 仅 限于 破解 口令 和 利用 操作 系统 漏洞 的 有 限 的 几 种 方法 , 然 
而 随 着 网 络 应 用 规模 的 扩大 和 技术 的 发 展 ,在 Internet. 上 黑客 站 点 随处 可 见 , 黑 客 工具 可 以 
任意 下 载 , 黑 客 攻 击 活动 日 益 独 狐 。 黑 客 攻击 已 经 对 网 络 的 安全 构成 了 极 大 的 威胁 。 研 究 
黑客 攻击 技术 ,了 解 并 掌握 攻击 技术 , 才 有 可 能 有 针对 性 地 进行 防范 。 研 究 网 络 攻击 方法 已 
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经 成 为 制定 网 络 安全 策略 、 研 究 人 侵 检 测 技术 的 基础 。 法 律 对 攻击 的 定义 是 指 : 攻击 仅仅 
发 生 在 人 侵 行为 完全 完成 ,并 且 人 侵 者 已 在 目标 网 络 内 。 但 是 对 于 网 络 安全 管理 员 来 说 ,一 
切 可 能 使 网 络 系统 受到 破坏 的 行为 都 应 视 为 攻击 。 

目前 网 络 攻击 大 致 可 以 分 为 : 系统 入 侵 类 攻击 、 缓 冲 区 溢出 攻击 欺骗 类 攻击 与 拒绝 服 
务 DoS 攻击 等 。 

系统 和 人 侵 类 攻击 者 的 最 终 目 的 都 是 为 了 获得 主机 系统 的 控制 权 ,从 而 破坏 主机 和 网 络 
系统 。 这 类 攻击 又 分 为 信息 收集 攻击 ,口令 攻击 和 漏洞 攻击 。 缓 冲 区 溢出 攻击 是 指 : 通过 
往 程序 的 缓冲 区 写 超 出 其 限制 长 度 的 内 容 , 造 成 缓冲 区 的 溢出 ,从 而 破坏 程序 的 堆栈 ,使 程 
序 转 而 执行 其 他 的 指令 。 缓 冲 区 攻击 的 目的 是 使 攻击 者 获得 程序 的 控制 权 。 网 络 欺骗 的 主 
要 类 型 有 : IP ROS ARP 欺骗 .DNS 欺骗 、Web 欺骗 .电子 邮件 欺骗 . 源 路 由 欺骗 ,地址 欺骗 
与 口令 欺骗 等 。 


2. 网 络 安全 威胁 的 层次 


网 络 安全 威胁 可 以 分 为 3 个 层次 : 主干 网 络 的 威胁 、TCP/IP 协议 安全 威胁 与 网 络 应 用 
的 威胁 。 

主干 网 络 的 威胁 主要 表现 在 主干 路 由 器 与 DNS 服务 器 。 攻 击 主干 网 最 直接 的 方法 是 
攻击 主干 路 由 器 与 DNS 服务 器 。 全 球 13 台 根 域 DNS 服务 器 支持 着 整个 Internet 的 运行 。 
1997 年 7 月 的 人 为 错误 曾经 导致 根 域 DNS 服务 器 工作 不 正常 ,致使 Internet 系统 局 部 服 
务 中 断 。2002 年 8 月 黑客 利用 Internet 主干 网 的 ASN No. 1 信 令 存在 的 安全 漏洞 ,攻击 了 
主干 路 由 器 ,交换 机 和 一 些 基 础 设施 ,造成 了 严重 的 后 果 。2002 年 10 月 21 日 美国 东部 时 
间 下 午 4: 45 开始 ,13 台 根 域 DNS 服务 器 遭受 了 规模 最 大 的 分 布 式 拒绝 服务 DDoS 
(Distributed Denial of Service) 攻 击 ,导致 其 中 的 9 台 根 域 DNS 服务 器 工作 不 正常 。 


3. 服务 攻击 与 非 服务 攻击 的 基本 概念 


Internet 中 的 网 络 防 攻击 可 以 归纳 为 以 下 两 种 基本 类 型 : 服务 攻击 与 非 服 务 攻击 。 

服务 攻击 (application dependent attack) 是 指 对 为 网 络 提供 某 种 服务 的 服务 器 发 起 攻 
击 , 造 成 该 网 络 的 “拒绝 服务 ”, 使 网 络 工作 不 正常 。 特 定 的 网 络 服务 包括 E-mail, Telnet, 
FTP, Web 服务 等 。 

非 服务 攻击 (application independent attack) 不 针对 某 项 具体 应 用 服务 ,而 是 针对 网 络 
层 及 低层 协议 进行 的 。 攻 击 者 可 能 使 用 各 种 方法 对 网 络 通信 设备 (例如 路 由 器 、 交 换 机 ) 发 
起 攻击 ,使 得 网 络 通信 设备 工作 严重 阻塞 或 瘫痪 。 


4. 网 络 攻击 手段 的 分 类 


网 络 攻 击 手 段 的 分 类 如 图 1-5 所 示 。 

网 络 攻击 手段 很 多 并 且 不 断 地 变化 ,总 结 目前 出 现 的 主要 的 网 络 攻击 现象 与 手段 大 致 
可 以 将 它们 分 为 : 欺骗 类 攻击 .DoS/DDoS 类 攻击 、 信 息 收 集 类 攻击 、 漏 洞 类 攻击 等 4 种 基 
本 类 型 。 

(1) 欺骗 类 攻击 

欺骗 类 攻击 的 手段 主要 包括 : 口令 欺骗 .IP 地 址 欺骗 ,ARP 欺骗 .DNS 欺骗 与 源 路 由 
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口令 欺骗 
[| 下 地 址 欺骗 

欺骗 型 攻击 。 片上 LARP 欺 骗 攻 击 
DNS 欺骗 攻击 
源 路 由 欺骗 攻击 


m 资源 消耗 型 DoS 攻击 
I—] 修改 配置 型 DoS 攻 击 
物理 破坏 型 DoS 攻击 


常见 的 
攻击 类 型 服务 利用 型 DoS 攻击 


DoS/DDoS 攻 击 


扫描 攻击 
信息 收集 型 攻击 体系 结构 探测 攻击 
利用 信息 服务 攻击 


Coena 
EEA 
[ gas | 
数据 库 类 漏洞 攻击 


漏洞 攻击 A 


图 1-5 网 络 攻击 手段 的 分 类 图 


欺骗 等 。 

(2) DoS/DDoS 攻击 

拒绝 服务 DoS 攻击 与 分 布 式 拒绝 服务 DDoS 攻击 的 手段 主要 包括 : 资源 消耗 型 .修改 
配置 型 物理 破坏 型 与 服务 利用 型 等 类 型 的 拒绝 服务 攻击 。 

(3) 信息 收集 类 攻击 

信息 收集 类 攻击 的 手段 主要 包括 : 扫描 攻击 、 体 系 结构 探测 攻击 和 利用 服务 攻击 等 。 

(4) 漏洞 类 攻击 

漏洞 类 攻击 的 手段 主要 包括 : 网 络 协议 类 操作 系统 类 应 用 软件 类 与 数据 库 类 等 。 

同时 需要 注意 的 是 ,网 络 安全 漏洞 实际 上 分 为 : 技术 漏洞 与 管理 漏洞 两 大 类 ,这 里 主要 
考虑 的 是 技术 漏洞 类 的 问题 。 


5. 典型 的 网 络 攻击 : DoS 攻击 与 DDoS 攻击 


(1) 拒绝 服务 攻击 

拒绝 服务 (Denial of Service,DoS) 攻 击 主要 是 通过 消耗 网 络 系统 有 限 的 \ 不 可 恢复 的 资 
源 , 从 而 使 合法 用 户 应 该 获得 的 服务 质量 下 降 或 遭 到 拒绝 。DoS 攻击 最 本 质 的 是 延长 正常 
网 络 应 用 服务 的 等 待 时 间 ,或 者 使 合法 用 户 的 服务 请 求 遭 到 拒绝 。DosS 攻击 的 目的 不 是 冶 
人 一 个 站 点 或 者 是 更 改 数据 ,而 是 使 站 点 无 法 服务 于 合法 的 服务 请 求 。 

拒绝 服务 DoS 攻击 大 致 可 以 分 为 4 类 : 资源 消耗 型 DoS 攻击 、 修 改 配置 型 DoS 攻击 、 
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物理 破坏 型 DoS 攻击 和 服务 利用 型 DoS 攻击 。 

(D 资源 消耗 型 DoS 攻击 

资源 消耗 型 Dos 攻击 通过 消耗 网 络 带宽 、 内 存 和 磁盘 空间 、CPU 利用 率 , 使 网 络 系统 
不 能 正常 工作 。 常 见 的 方法 是 : 攻击 者 制造 大 量 广播 包 或 传输 大 量 文件 ,占用 网 络 链 路 与 
路 由 器 带宽 资源 ;攻击 者 制造 大 量 电子 邮件 、 错 误 日 志 信息 .垃圾 邮件 等 ,占用 主机 中 共享 的 
磁盘 资源 ;攻击 者 制造 大 量 的 无 用 信息 或 进程 通信 交互 信息 ,占用 CPU 和 系统 内 存 资 源 。 

© 修改 配置 型 DoS 攻击 

修改 配置 型 DoS 攻击 通过 修改 系统 运行 配置 ,阻止 合法 用 户 的 使 用 和 网 络 的 正常 工作 。 
常见 的 方法 是 : 改变 路 由 信息 ;修改 Windows NT 的 注册 表 ; 修 改 UNIX 的 各 种 配置 文件 。 

@ 物理 破坏 型 DoS 攻击 

物理 破坏 型 DoS 攻击 通过 破坏 网 络 、 计 算 机 或 系统 物理 支持 环境 ,使 网 络 系 统 不 能 正 
常 工作 。 常 见 的 方法 是 : 破坏 计算 机 系统 ;破坏 路 由 器 和 通信 线路 ;破坏 网 络 与 计算 机 设备 
供电 或 机 房 空调 系统 。 

@ 服务 利用 型 Dos 攻击 

服务 利用 型 DoS 攻击 利用 网 络 或 协议 的 漏洞 达到 攻击 的 目的 。 常 见 的 方法 如 Land 攻 
ii Ping to Death 攻击 、TCP 标志 位 攻击 、IP 碎片 (teardrop) 攻 击 .ICMP& UDP 洪 泛 攻 
击 等 。 

(2) 分 布 式 拒绝 服务 攻击 

分 布 式 拒绝 服务 (Distributed Denial of Service. DDoS) 攻 击 是 在 Dos 攻击 基础 上 产生 
的 一 类 攻击 形式 。DDoS 攻击 采用 了 一 种 比较 特殊 的 体系 结构 ,攻击 者 利用 多 台 分 布 在 不 
同位 置 的 攻击 代理 主机 ,同时 攻击 一 个 目标 ,从 而 导致 被 攻击 者 的 系统 瘫痪 。 


1.3.3 网 络 安全 防护 技术 研究 


1. 防火 墙 的 基本 概念 


防火 墙 (firewall) 是 在 网 络 之 间 执 行 控制 策略 的 系统 , 它 包 括 硬件 和 软件 。 在 设计 防火 
墙 时 ,人 们 做 了 一 个 假设 : 防火 墙 保护 的 内 部 网 络 是 “可 信赖 的 网 络 ”(trusted network) ,而 
外 部 网 络 是 “不 可 信赖 的 网 络 ”untrusted network)。 设 置 防火 墙 的 目的 是 保护 内 部 网 络 资 
源 不 被 外 部 非 授 权 用 户 使 用 ,防止 内 部 受到 外 部 非法 用 户 的 攻击 。 因 此 防火 墙 安装 的 位 置 
是 在 内 部 网 络 与 外 部 网 络 之 间 。 防 火 墙 的 主要 功能 包括 : 检查 所 有 从 外 部 网 络 进入 内 部 网 
络 的 数据 包 ; 检 查 所 有 从 内 部 网 络 流出 到 外 部 网 络 的 数据 包 ; 执 行 安全 策略 ,限制 所 有 不 符 
合 安全 策略 要 求 的 分 组 通过 ;具有 防 攻击 能 力 , 保 证 自身 的 安全 性 。 防 火 墙 通过 检查 所 有 进 
出 内 部 网 络 的 数据 包 ,检查 数据 包 的 合法 性 ,判断 是 否 会 对 网 络 安全 构成 威胁 ,为 内 部 网 络 
建立 安全 边界 (security perimeter) 。 

构成 防火 墙 系统 的 两 个 基本 部 件 是 包 过 滤 路 由 器 (packet filtering router) 和 应 用 级 网 
X (application gateway)。 最 简单 的 防火 墙 可 以 由 一 个 包 过 滤 路 由 器 组 成 ,而 复杂 的 防火 墙 
系统 由 包 过 滤 路 由 器 和 应 用 级 网 关 组 合 而 成 。 由 于 组 合 方式 有 多 种 ,因此 防火 墙 系统 的 结 
构 也 有 多 种 形式 。 包 过 滤 技 术 基于 路 由 器 技术 。 包 过 滤 路 由 器 按照 系统 内 部 设置 的 分 组 过 
滤 规 则 ( 即 访问 控制 表 ) ,检查 每 个 分 组 的 源 IP 地 址 .目的 IP 地 址 ,决定 该 分 组 是 否 应 该 转 
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发 。 普 通 的 路 由 器 只 对 分 组 的 网 络 层 报头 进行 处 理 ,对 传输 层 报头 不 进行 处 理 , 而 包 过 滤 路 
由 器 需要 检查 TCP 报头 的 端口 号 字 节 。 包 过 滤 规 则 一 般 是 基于 部 分 或 全 部 报头 的 内 容 。 
对 于 TCP 报头 信息 , 它 可 以 是 : 源 IP 地 址 .目的 IP 地址、 协议 类 型 IP 选项 、 源 TCP 端口 
号 ,目的 TCP 端口 号 与 TCP ACK 标识 。 实 现 包 过 滤 的 关键 是 制定 包 过 滤 规 则 。 包 过 滤 路 
由 器 将 分 析 接 收 到 的 包 , 按 照 每 一 条 包 过 滤 的 规则 加 以 判断 ,凡是 符合 包 转发 规则 的 包 被 转 
发 ,凡是 不 符合 包 转 发 规则 的 包 则 被 丢弃 。 包 过 滤 路 由 器 也 叫 屏蔽 路 由 器 。 包 过 滤 路 由 器 
是 被 保护 的 内 部 网 络 与 外 部 不 信任 网 络 之 间 的 第 一 道 防线 。 

包 过 滤 只 能 在 网 络 层 、 传 输 层 对 进出 内 部 网 络 的 数据 包 进 行 监控 ,但 是 网 络 用 户 对 网 络 
资源 和 服务 的 访问 发 生 在 应 用 层 , 因 此 必须 在 应 用 层 上 建立 用 户 身份 认证 和 访问 操作 的 检 
查 和 过 滤 功 能 ,这 个 功能 由 应 用 级 网 关 完 成 。 应 用 代理 是 应 用 级 网 关 的 另 一 种 形式 ,但 是 它 
们 的 工作 方式 不 同 。 应 用 级 网 关 以 存储 转发 方式 ,检查 和 确定 网 络 服务 请 求 的 用 户 身份 是 
否 合法 ,决定 是 转发 还 是 丢弃 该 服务 请 求 。 因 此 应 用 级 网 关 在 应 用 层 “转发 "合法 的 应 用 请 
求 。 应 用 代理 完全 接管 了 用 户 与 服务 器 的 访问 ,隔离 了 用 户主 机 与 被 访问 服务 器 之 间 的 数 
据 包 的 交换 通道 。 在 实际 应 用 中 ,应 用 代理 的 功能 由 代理 服务 器 (proxy server) 实 现 。 应 用 
级 网 关 与 应 用 代理 的 优点 是 可 以 针对 某 一 特定 的 网 络 服务 ,并 能 在 应 用 层 协 议 的 基础 上 分 
析 与 转发 服务 请 求 与 响应 。 同 时 它们 一 般 都 具有 日 志 记 录 功 能 。 

防火 墙 是 一 个 由 软件 与 硬件 组 成 的 系统 。 不 同 内 部 网 的 安全 策略 与 防护 目的 不 同 , 防 
火 墙 系统 的 配置 与 实现 方式 也 有 很 大 区 别 。 实 际 的 防火 墙 系统 经 常 是 由 包 过 滤 路 由 器 与 应 
用 级 网 关 作为 基本 单元 ,采用 多 级 的 结构 和 多 种 组 态 。 


2. 入 侵 检测 技术 研究 的 基本 概念 


(1) 入 侵 检测 系统 的 基本 功能 

入 侵 检 测 系统 (intrusion detection system,IDS) 是 对 计算 机 和 网 络 资源 的 恶意 使 用 行 
为 进行 识别 的 系统 。 它 的 目的 是 监测 和 发 现 可 能 存在 的 攻击 行为 ,包括 来 自 系统 外 部 的 入 
侵 行为 和 来 自 内 部 用 户 的 非 授权 行为 ,并 采取 相应 的 防护 手段 。 

1980 年 James Anderson 在 “Computer Security Threat Monitoring and Surveillance" 
的 论文 中 提出 了 入 侵 检 测 系统 的 概念 。 他 对 “网 络 人 侵 " 的 定义 是 : 潜在 的 有 预谋 的 、 未 经 
授权 的 服务 操作 ,目的 是 使 网 络 系统 不 可 靠 或 无 法 使 用 。 

1987 年 Domthy Donning 在 “An Intrusion Detection Model” 的 论文 中 提出 入 侵 检 测 系 
统 IDS 的 框架 结构 。 入 侵 检测 系统 的 功能 主要 有 : 监控 ,分 析 用 户 和 系统 的 行为 ;检查 系统 
的 配置 和 漏洞 ;评估 重要 的 系统 和 数据 文件 的 完整 性 ;对 异常 行为 的 统计 分 析 , 识 别 攻击 类 
型 ,并 向 网 络 管理 人 员 报 警 ; 对 操作 系统 进行 审计 、 跟 踪 管 理 ,识别 违反 授权 的 用 户 活动 。 

IDS 作为 一 种 主动 式 ,动态 的 防御 技术 迅速 发 展 起 来 ,成 为 当前 安全 研究 中 一 个 新 的 热 
点 。IDS 通过 动态 探查 网 络 内 的 异常 情况 ,及 时 发 出 警报 ,有 效 弥 补 了 其 他 静态 防御 技术 的 
不 足 。IDS 正在 成 为 对 抗 网 络 攻击 的 关键 技术 ,研究 的 总 体 目标 是 : 智能 .分布 式 、 实 时 的 


" 


网 络 人 侵 防御 技术 与 系统 。 
(2) 入 侵 检测 系统 的 分 类 
人 侵 检测 信息 的 来 源 主要 有 : 基于 主机 的 信息 源 、 基 于 网 络 的 信息 源 、 应 用 程序 日 志 信 


息 与 人 侵 检 测 系 统 的 报警 信息 。 入 侵 检测 系统 IDS 的 分 类 如 图 1-6 所 示 。 
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— 基于 主机 的 大 侵 检测 系统 
DE 分 布 式 入 侵 检 测 系统 
基于 网 络 的 人 侵 检测 系统 
大 规模 分 布 式 人 侵 检测 系统 
基于 目标 的 入侵 检测 系统 
EN gr enmum 
š 基于 应 用 的 入 侵 检测 系统 
在 线 入 侵 检 测 系统 
US 
zu 离线 入侵 检测 系统 


图 1-6 和信 侵 检测 系统 IDS 的 基本 分 类 图 


根据 入 侵 检测 的 体系 结构 不 同 , 人 侵 检测 系统 IDS 可 以 分 为 基于 主机 的 入侵 检测 系统 
IDS 与 基于 网 络 的 人 侵 检测 系统 IDS 等 两 大 类 。 基 于 主机 的 和 人 侵 检测 系统 是 一 种 集中 式 的 
IDS, 基 于 网 络 的 人 侵 检测 系统 是 一 种 分 布 式 的 IDS. 

目前 的 网 络 环境 要 求人 侵 检测 系统 能 够 根据 不 同 子 网 所 发 生 的 入侵 迹象 ,判断 整个 网 
络 可 能 出 现 的 分 布 式 人 侵 的 现象 与 程度 ,因此 研究 多 个 子 网 的 入 侵 检 测 系统 的 协同 工作 的 
大 规模 分 布 式 人 侵 检 测 系统 是 下 一 阶段 的 一 个 重要 课题 。 

根据 检测 的 对 象 和 基本 方法 的 不 同 , 入 侵 检测 系统 IDS 又 可 以 分 为 : 基于 目标 的 入 侵 
检测 系统 和 基于 应 用 的 人 侵 检 测 系统 。 

根据 入 侵 检测 的 工作 方式 不 同 又 可 分 为 离线 检测 系统 和 在 线 检测 系统 。 离 线 检测 系统 
是 非 实时 工作 的 系统 。 它 是 事后 分 析 审 计 事件 ,从 中 检测 人 侵 活 动 。 在 线 检测 系统 是 实时 
联机 的 测试 系统 , 它 包含 实时 网 络 数据 包 的 审计 分 析 。 


3. 安全 审计 的 基本 概念 


安全 审计 是 一 个 安全 的 网 络 必须 支持 的 一 个 功能 , 它 是 对 用 户 使 用 网 络 和 计算 机 所 有 
活动 记录 分 析 、 审 查 和 发 现 问题 的 重要 手段 。 安 全 审计 对 于 系统 安全 状态 的 评价 ,分 析 攻 击 
源 、 攻 击 类 型 与 攻击 危害 ,收集 网 络 犯 罪证 据 至 关 重 要 。 

国际 上 已 经 在 TCSEC(Trusted Computer System Evaluation Criteria) 中 对 信息 系统 
的 安全 等 级 与 评价 方法 发 布 了 标准 ,并 提出 了 对 安全 审计 的 基本 要 求 。TCSEC 对 
Accountability 提出 的 要 求 是 : 审计 信息 必须 被 有 选择 地 保留 和 保护 ,与 安全 有 关 的 活动 能 
够 被 追溯 到 负责 方 ,系统 应 能 够 选择 和 记录 与 安全 有 关 的 重要 信息 ,以 便 将 审计 的 开销 减少 
到 最 小 ,提高 安全 审计 的 有 效 性 。 

在 C2 等 级 安全 中 标准 也 对 审计 有 确定 的 要 求 : 系统 能 够 创建 和 维护 审计 数据 ,保证 审 
计数 据 记录 不 被 删除 ,修改 和 非法 访问 。 

1998 年 ISO 与 IEC 公布 的 (信息 技术 安全 评估 通用 准则 》(2.0 版 ) 的 11 项 安全 功能 需 
求 中 ,明确 规定 了 网 络 安全 审计 的 功能 : 安全 审计 自动 响应 、 安 全 审计 事件 生成 ,安全 审计 
分 析 、 安 全 审计 预览 安全 审计 事件 存储 ,安全 审计 事件 选择 等 。 因 此 ,一 个 网 络 系统 是 否 具 

完善 的 审计 功能 是 评价 系统 安全 性 的 重要 标准 之 一 。 


miim 
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安全 审计 研究 的 内 容 主要 有 : 网 络 设备 及 防火 墙 日 志 审 计 、 操 作 系统 日 志 审 计 。 目 前 
防火 墙 等 安全 设备 具有 一 定 的 日 志 功能 ,在 一 般 情 况 下 只 记录 自身 的 运转 情况 与 简单 的 韦 
规 操作 信息 。 由 于 一 般 的 网 络 设备 与 防火 墙 对 网 络 流量 分 析 能 力 不 够 强 , 所 以 这 些 信息 还 
不 能 对 网 络 的 安全 提供 分 析 依据 。 同 时 ,由 于 一 般 网 络 设备 与 防火 墙 采用 内 存 记录 日 志 , 因 
此 空间 有 限 ,信息 需要 经 常 地 覆盖 。 因 此 没有 能 力 提供 足够 的 分 析 数 据 。 这 种 网 络 设备 与 
防火 墙 的 设计 不 能 满足 安全 评测 标准 的 要 求 。 

目前 大 多 数 操作 系统 都 提供 日 志 功 能 ,记录 用 户 登 录 等 信息 ,但 是 如 果 要 从 大 量 零散 的 
信息 去 人 工分 析 安 全 信息 是 很 困难 的 。 同 时 ,日 志 被 修改 的 可 能 性 也 存在 。 因 此 ,目前 多 数 
操作 系统 安全 审计 方法 尚 不 能 满足 安全 评测 标准 的 要 求 。 


1.3.4 网 络 防 病毒 技术 研究 


恶意 传播 代码 (malicious mobile code, MMC) 是 一 种 软件 程序 , 它 被 设计 成 能 够 从 一 台 
计算 机 传播 到 另 一 台 计 算 机 ,从 一 个 网 络 传播 到 另 一 个 网 络 , 目 的 是 在 网 络 和 系统 管理 员 不 
知情 的 情况 下 ,对 系统 进行 故意 地 修改 。 恶 意 传播 代码 包括 病毒 木马、 蠕虫 .脚本 攻击 代 
码 , 以 及 垃圾 邮件 、 流 谍 软 件 与 恶意 的 Internet 代码 。 

病毒 程序 的 名 称 来 源 类 似 于 生物 学 的 病毒 。 病 毒 程序 是 一 种 专门 修改 其 他 宿主 文件 或 
硬盘 的 引导 区 ,来 复制 自己 的 恶意 程序 。 一 旦 感染 病毒 ,宿主 文件 就 变 成 病毒 再 去 感染 其 他 
的 文件 。 

木马 程序 又 叫做 特洛伊 木马 ,是 一 种 非 自身 复制 程序 。 它 伪装 成 一 种 程序 ,但 是 程序 是 
什么 用 户 并 不 知道 。 例 如 ,用 户 从 网 络 上 下 载 并 运行 了 一 个 游戏 程序 ,但 游戏 程序 的 制造 者 
同时 将 一 个 木马 程序 装 进 了 用 户 的 计算 机 ,以 便 黑 客 进 入 并 控制 该 计算 机 。 木 马 程序 不 改 
变 或 感染 其 他 的 文件 。 后 门 (backdoor) 程 序 是 恶意 程序 中 的 子 程序 , 它 使 黑客 可 以 访问 本 
来 安全 的 计算 机 系统 ,而 不 会 让 用 户 或 管理 员 知 道 。 

晴 虫 是 一 种 复杂 的 自身 复制 代码 , 它 完全 依靠 自身 进行 传播 。 晴 虫 典型 的 传播 方式 是 
利用 广泛 使 用 的 应 用 程序 ,如 电子 邮件 、 聊 天 室 等 。 蠕 虫 可 以 将 自己 附 在 一 封 要 被 发 送 的 邮 
件 上 ,或 者 在 两 个 互相 信任 的 系统 之 间 , 通 过 一 条 简单 的 FTP 命令 来 传播 。 蠕 虫 一 般 不 寄 
生 在 其 他 文件 或 引导 区 中 。 

蠕虫 与 木马 有 很 多 共同 点 ,它们 之 间 的 主要 区 别 在 于 : 木马 总 是 假扮 成 其 他 的 程序 ,而 
蠕虫 是 在 后 台 暗 中 破坏 ;木马 依靠 用 户 的 信任 去 激活 它 , 而 蠕虫 从 一 个 系统 传播 到 另 一 个 系 
统 ,不 需要 用 户 的 介入 ;木马 不 对 自身 进行 复制 ,而 蠕虫 对 自身 进行 大 量 复制 。 

根据 病毒 的 传染 性 可 以 分 为 : 引导 型 病毒 文件 型 病毒 复合 型 病毒 。 

根据 病毒 的 连接 方式 可 以 分 为 : 源码 型 病毒 .人 侵 型 病毒 .操作 系统 型 病毒 。 

根据 病毒 的 破坏 性 可 以 分 为 : 良性 病毒 .恶性 病毒 。 

网 络 病毒 问题 的 解决 ,只 能 从 采用 先进 的 防 病毒 技术 与 制定 严格 的 用 户 使 用 网 络 的 管 
理 制 度 两 个 方面 人 手 。 


1.3.5 计算 机 取证 技术 研究 


1. 计算 机 取证 的 作用 
计算 机 取证 (computer forensics) 在 网 络 安全 中 属于 主动 防御 技术 . 它 是 应 用 计算 机 辩 
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析 方 法 ,对 计算 机 犯罪 的 行为 进行 分 析 , 以 确定 罪犯 与 犯罪 的 电子 证 据 ,并 以 此 为 重要 依据 
提起 诉讼 。 针 对 网 络 人 侵 与 犯罪 ,计算 机 取证 技术 是 一 个 对 受 侵犯 的 计算 机 与 网 络 设备 与 
系统 进行 扫描 与 破解 ,对 和 人 侵 的 过 程 进行 重 构 ,完成 有 法 律 效力 的 电子 证 据 的 获取 、 保 存 、 分 
析出 示 的 全 过 程 ,是 保护 网 络 系统 的 重要 技术 手段 。 

计算 机 取证 也 叫 计算 机 法 医学 。 对 于 构建 对 入侵 者 有 威慑 力 的 主动 网 络 防御 体系 有 重 
要 的 意义 ,是 一 个 极 具 挑战 性 的 研究 课题 。 在 信息 窃取 ,金融 诈骗 ,病毒 与 网 络 攻 击 日 益 严 
重 的 情况 下 ,计算 机 取证 技术 与 相关 法 律 、 法 规 的 研究 、 制 定 已 经 迫在眉睫 。 


2. 电子 证 据 的 概念 


计算 机 取证 的 主要 任务 是 获取 电子 证 据 。 证 据 是 法 官 判定 犯罪 嫌疑 人 是 否 有 罪 的 标 
准 。 电 子 证 据 20 世纪 30 年 代 首先 出 现在 美国 ,而 我 国 在 法 庭 出 示 电 子 证 据 还 是 近 十 年 的 
事 。1976 年 美国 出 台 了 有 关 电 子 证 据 的 法 律 条 款 , 我 国 在 这 方面 正在 加 快 相 关 法 律 法 规 的 
研究 和 制定 。 

国际 组 织 IOCE 对 于 电子 证 据 有 相关 的 定义 。 他 们 认为 证 据 可 以 分 为 电子 证 据 、 原 始 
电子 证 据 、 电 子 证 据 副 本 与 拷贝 等 4 类。 电子 证 据 是 指 在 法 庭 上 可 能 成 为 证 据 的 二 进 制 形 
式 存 储 或 传送 的 信息 。 原 始 电子 证 据 是 指 在 查封 计算 机 犯罪 现场 获取 的 相关 物理 介质 、 存 
储 的 数字 信息 。 电 子 证 据 副 本 是 指 从 原始 电子 证 据 获取 的 所 有 数字 信息 的 完全 拷贝 。 

与 传统 意义 上 的 证 据 一 样 , 电 子 证 据 必 须 是 可 信 的 、 准 确 的 、 完 整 的 且 符 合法 律 法 规 的 ， 
必须 能 够 被 法 庭 接 受 的 。 电 子 证 据 有 它 自 己 的 特点 : 表现 形式 的 多 样 性 、 准 确 性 和 易 修 改 
性 。 电 子 证 据 可 以 存储 在 计算 机 的 硬盘 、 软 盘 、 内 存 、 光 盘 与 磁带 中 ,可 以 是 文本 、 图 形 、 图 
像 . 语 音 、 视 频 等 各 种 形式 的 。 如 果 没 有 人 蓄意 破坏 ,那么 电子 证 据 是 准确 的 ,能 够 反映 事件 
的 过 程 与 某 些 细节 。 电 子 证 据 不 受 人 的 感情 与 经 验 等 主观 因素 的 影响 。 但 是 ,电子 证 据 是 
非常 容易 被 修改 的 。 


3. 计算 机 取证 方法 


计算 机 取证 的 方法 基本 可 以 分 为 : 静态 方法 和 动态 方法 。 

传统 的 取证 是 在 案 发 之 后 或 已 经 造成 严重 后 果 之 后 对 现场 的 取证 ,这 种 取证 属于 静态 
取证 。 静 态 取 证 由 于 缺乏 实时 性 和 连续 性 ,因此 在 法 庭 上 缺乏 说 服 力 , 有 了 时 会 因为 作案 者 已 
经 销毁 了 证 据 ,而 无 法 起 诉 。 同 时 ,由 于 是 事后 处 理 , 因 此 即使 作案 者 受到 了 法 律 制 裁 , 但 是 
危害 已 经 造成 了 。 

动态 取证 方法 通过 实时 监控 攻击 的 发 生 , 在 启动 响应 系统 ,判断 危害 的 严重 程度 , 作 相 
应 处 理 的 同时 ,对 入 侵 过 程 实施 同步 取证 和 详细 记录 。 网 络 攻击 一 般 要 经 过 嗅 探 \, 人 侵 、 破 
坏 、 掩 盖 人 侵 足 迹 等 过 程 ,在 攻击 的 每 个 过 程 中 ,网 络 安全 系统 都 需要 采取 IDS 系统 与 “ 蜜 
饶 ?技术 相 结合 的 方法 完成 取证 。 


1.3.6 网 络 业务 持续 性 规划 技术 研究 


1. 网 络 业务 持续 性 规划 技术 的 基本 概念 
网 络 文件 备份 恢复 属于 日 常 网 络 与 信息 系统 维护 的 范畴 ,而 业务 持续 性 规划 涉及 对 突 
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发 事件 对 网 络 与 信息 系统 影响 的 预防 技术 。 

在 实际 的 网 络 运行 环境 中 ,数据 备份 与 恢复 功能 非常 重要 。 数 据 一 旦 丢失 ,可 能 会 给 用 
户 造成 不 可 挽回 的 损失 。 网 络 数据 可 以 进行 归档 与 备份 。 归 档 与 备份 是 有 区 别 的 。 归 档 是 
指 在 一 种 特殊 介质 上 进行 永久 性 存储 ,归档 的 数据 可 能 包括 文件 服务 器 不 再 需要 的 数据 ,但 
是 由 于 某 种 原因 需要 保存 若干 年 ,一 般 将 这 些 数据 存放 在 一 个 非常 安全 的 地 方 。 网 络 数据 
备份 是 一 项 基本 的 网 络 维护 工作 。 对 于 网 络 管理 员 来 说 ,网 络 文件 备份 是 日 常 的 网 络 管理 
工作 任务 之 一 。 网 络 文件 备份 要 解决 以 下 几 个 基本 问题 : 选择 备份 设备 .选择 备份 程序 与 
建立 备份 制度 。 

在 20 世纪 网 络 技术 处 于 发 展 过 程 中 ,人 们 的 注意 力主 要 集中 在 “建设 "上 。 进 入 21 tit 
纪 , 网 络 已 经 广泛 地 应 用 于 社会 生活 的 各 个 方面 ,人 们 对 广域网 与 城 域 网 的 运行 提出 了 “ 电 
信 级 与“ 准 电信 级 ”运营 的 要 求 ,银行 .电信 、 社 会 保险 ,政府 的 网 络 与 数据 的 安全 已 经 成 为 
影响 社会 稳定 的 因素 ,因此 网 络 系统 的 安全 性 ,以 及 对 于 突 发 事件 的 应 对 能 力 已 经 被 提 到 重 
要 的 位 置 。 

对 于 网 络 与 信息 系统 的 业务 持续 性 规划 技术 ,Jon William Toigo 的 著作 《Disaster 
Recovery Planning Preparing for the Unthinkable( Third Edition)》 已 经 做 了 最 好 的 诠释 。 
Jon William Toigo 作为 一 位 美国 航运 公司 网 络 与 计算 机 系统 的 负责 人 ,亲身 经 历 了 9。11 
事件 。 他 在 书 中 写 道 : “除了 9-01 事件 所 产生 的 社会 与 政治 后 果 , 这 场 灾难 很 特别 的 一 
点 ,或 许 是 发 现 如 此 众多 的 受到 影响 的 机 构 , 竟 然 没有 任何 灾难 恢复 规划 。 对 于 世贸 中 心 
的 440 多 家 商业 机 构 ,曼哈顿 区 被 电力 .通信 和 设备 中 断 所 影响 的 成 千 上 万 家 公司 ,还 有 
五 角 大 楼 中 众多 的 政府 机 构 , 只 有 一 小 部 分 一 一 或 许 是 200 家 一 一 有 预先 制订 的 灾难 恢 
复 规划 ”。 在 这 本 书 中 ,Jon William Toigo 讨论 了 一 个 术语 的 深层 次 含义 , 那 就 是 “灾难 ” 
与 “业务 持续 性 ?的 区 别 。 一 些 专家 认为 “灾难 ”一般 是 指 洪水 飓风 与 地 震 之 类 的 自然 灾 
害 所 造成 的 危害 。 而 在 信息 技术 领域 中 指 的 是 : 由 于 网 络 基础 设施 的 中 断 所 导致 公司 业 
务 流程 的 非 计划 性 中 断 。 造 成 业务 流程 的 非 计划 性 中 断 的 原因 除了 洪水 飓风 与 地 震 之 
类 的 自然 灾害 .恐怖 活动 之 外 ,还 有 网 络 攻击 、 病 毒 与 内 部 人 员 的 破坏 ,以 及 其 他 不 可 抗 
拒 的 因素 。 这 些 突 发 事件 的 出 现 , 其 结果 是 造成 网 络 与 信息 系统 、 硬 件 与 软件 的 损坏 ,以 
及 密 钥 系统 与 数据 的 丢失 ,关键 业务 流程 的 非 计 划 性 中 断 。 针 对 各 种 可 能 发 生 的 情况 ， 
必须 针对 可 能 出 现 的 突 发 事件 ,提前 做 好 预防 突 发 事件 出 现 造成 重大 后 果 的 预案 ,控制 
突 发 事件 对 关键 业务 流程 所 造成 的 影响 。 因 此 ,现在 人 们 倾向 于 将 “灾难 恢复 规划 ”的 术 
语 改 为 “业务 持续 性 规划 ”。 


2. 业务 持续 性 规划 的 基本 内 容 


业务 持续 性 规划 技术 的 研究 大 致 包括 以 下 一 些 基本 内 容 : 规划 的 方法 学 问题 ,风险 分 
析 方 法 和 数据 恢复 规划 。 

我 国 的 网 络 与 网 络 应 用 技术 正 处 于 快速 发 展 阶段 ,中 大 型 网 络 与 网 络 信息 系统 的 数量 
正在 高 速 增长 ,但 是 在 企业 部门 与 公司 主管 层 对 网 络 系统 的 风险 与 业务 持续 性 的 认识 还 有 
待 提高 ,适合 我 国 经 济 与 技术 发 展 水 平 .认识 能 力 的 业务 持续 性 技术 的 研究 与 应 用 还 处 于 起 
步 和 示范 工程 阶段 ,研究 适合 我 国 国情 的 设计 方法 与 应 用 系统 开发 是 一 项 重要 的 任务 。 
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1.3.7 密码 学 在 网 络 中 的 应 用 研究 


1. 密码 体系 的 基本 概念 


密码 技术 是 保证 网 络 与 信息 安全 的 基础 与 核心 技术 之 一 。 密 码 学 (crytography) 包 括 
密码 编码 学 与 密码 分 析 学 。 密 码 体制 的 设计 是 密码 学 研究 的 主要 内 容 。 人 们 利用 加 密 算法 
和 一 个 秘密 的 值 ( 称 为 密 钥 ) 来 对 信息 编码 进行 隐藏 ,而 密码 分 析 学 试图 破译 算法 和 密 钥 。 
两 者 相互 对 立 ,又 互相 促进 地 向 前 发 展 。 

密码 体制 是 指 一 个 系统 所 采用 的 基本 工作 方式 以 及 它 的 两 个 基本 构成 要 素 , 即 加 密 / 解 
密 算法 和 密 钥 。 

加 密 的 基本 思想 是 伪装 明文 以 隐藏 它 的 真实 内 容 , 即 将 明文 伪装 成 密 文 。 伪 装 明文 的 
操作 称 为 加 密 ,加密 时 所 使 用 的 信息 变换 规则 称 为 加 密 算 法 。 由 密 文 恢复 出 原 明 文 的 过 程 
称 为 解密 。 解 密 时 所 采用 的 信息 变换 规则 称 作 解密 算法 。 

加 密 算法 和 解密 算法 的 操作 通常 是 在 一 组 密 钥 控制 下 进行 的 。 加 密 密 钥 和 解密 密 钥 相 
同 的 密码 体制 称 为 对 称 密码 (symmetric cryptography) 体 制 。 加 密 密 钥 和 解密 密 钥 不 相同 
的 密码 体制 称 为 公 钥 密 码 (asymmetric cryptography) 体 制 。 密 钥 可 以 看 做 是 密码 算法 中 的 
可 变 参 数 。 改 变 了 密 钥 ,实际 上 也 就 改变 了 明文 与 密 文 之 间 等 价 的 数学 函数 关系 。 密 码 算 
法 是 相对 稳定 的 ,而 密 钥 则 是 一 个 变量 。 现 代 密 码 学 的 一 个 基本 原则 是 : 一 切 秘密 寓于 密 
钥 之 中 。 在 设计 加 密 系 统 时 ,加 密 算法 是 可 以 公开 的 ,真正 需要 保密 的 是 密 钥 。 

对 于 同一 种 加 密 算 法 , 密 钥 的 位 数 越 长 , 密 钥 空间 (key space) 越 大 , 即 密 钥 可 能 的 范围 
越 大 ,破译 的 困难 就 越 大 ,安全 性 就 越 好 。 一 种 自然 的 倾向 就 是 使 用 最 长 的 可 用 密 钥 , 它 使 
得 密 钥 很 难 被 猜测 出 来 。 但 是 密 钥 越 长 ,进行 加 密 和 解密 过 程 所 需要 的 计算 时 间 也 将 越 长 。 

公 钥 密码 技术 对 信息 的 加 密 与 解密 使 用 不 同 的 密 钥 ,用 来 加 密 的 密 钥 是 可 以 公开 的 ,而 
用 来 解密 的 密 钥 是 需要 保密 的 ,因此 又 被 称 为 公 钥 加 密 (public key encryption) 技 术 。 

1976 年 Diffie 与 Hellman 提出 了 公 钥 加 密 的 思想 ,加 密 用 的 密 钥 与 解密 用 的 密 钥 不 
同 , 公 开 加 密 密 钥 不 至 于 危及 解密 密 钥 的 安全 。 用 来 加 密 的 公 钥 (public key) 与 解密 的 私 钥 
(private key) 是 数学 相关 的 ,并 且 公 钥 与 私 钥 成 对 出 现 ,但 是 不 能 通过 公 钥 计算 出 私 钥 。 公 
钥 密 钥 密码 体系 在 现代 密码 学 中 非常 重要 。 按 照 一 般 的 理解 ,加 密 主 要 是 解决 信息 在 传输 
过 程 中 的 保密 性 问题 。 但 是 还 存在 另 一 个 问题 , 即 如 何 对 信息 发 送 人 与 接收 人 的 真实 身份 
进行 验证 ,防止 对 所 发 出 信息 和 接收 信息 的 用 户 在 事后 抵赖 ,并 且 能 够 保证 数据 的 完整 性 。 
公 钥 密 钥 密码 体制 对 这 两 个 方面 的 问题 都 给 出 了 很 好 的 回答 。 公 钥 加 密 技术 可 以 大 大 简化 
密 钥 的 管理 ,如 果 网 络 中 要 对 N 个 用 户 之 间 进 行 通信 加 密 , 只 需要 使 用 N 对 密 钥 就 可 以 
了 。 公 钥 加 密 技 术 与 对 称 密 钥 加 密 技 术 相 比 ,其 优势 在 于 不 需要 共享 通用 的 密 钥 ,用 于 解密 
的 私 钥 不 需要 发 往 任 何 地 方 。 公 钥 可 以 通过 Internet 进行 传递 与 分 发 。 公 钥 加 密 技术 的 主 
要 缺点 是 加 密 算 法 复杂 ,加 密 与 解密 的 速度 比较 慢 。 公 钥 加 密 技术 常用 于 数据 完整 性 ,数据 
保密 性 、 防 抵赖 与 发 送 端 身份 认证 等 方面 。 


2. 消息 验证 与 数字 签名 的 研究 
2004 Æ 8 H 28 日 第 十 届 全 国人 大 常委 会 第 十 一 次 会 议 表 决 通过 了 《数字 签名 法 》, 了 
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2006 年 4 月 1 日 正式 实施 .《 数 字 签名 法 } 是 我 国 首部 “真正 意义 上 的 信息 化 立法 ”, 它 的 重 
点 是 : 确定 数字 签名 的 法 律 效力 ;规范 电子 签名 的 行为 ;明确 认证 机 构 的 法 律 地 位 及 认证 程 
序 ; 规 定 电子 签名 的 安全 保证 措施 。 随 着 (数字 签名 法 ) 的 颁布 实施 ,研究 与 应 用 电子 签名 技 
术 就 显得 更 加 重要 了 。 

在 网 络 环境 中 ,消息 验证 与 数字 签名 是 防止 主动 攻击 的 重要 技术 。 消 息 验证 与 数字 签 
名 的 主要 目的 是 : 验证 信息 的 完整 性 ,验证 消息 发 送 者 身份 的 真实 性 。 实 现 消 息 验证 需要 
使 用 以 下 技术 : 消息 的 加 密 、 消 息 验 证 码 MAC 与 散 列 Hash 函数 。 

利用 数字 签名 可 以 实现 以 下 功能 : 

(1) 保证 信息 传输 过 程 中 的 完整 性 

安全 单 向 哈 希 函数 的 特性 保证 如 果 两 条 信息 的 信息 摘要 相同 , 则 它们 的 信息 内 容 也 相 
同 。 因 此 ,可 以 通过 比较 发 送 前 的 信息 摘要 与 接收 到 的 信息 摘要 来 判断 信息 在 传输 过 程 中 
是 否 被 算 改 或 改变 过 。 由 于 在 传输 过 程 中 信息 摘要 是 经 过 发 送 端的 私 钥 加 密 的 ,其 他 人 生 
成 相同 加 密 摘 要 的 可 能 性 很 小 ,因此 ,如 果 重 新 计算 的 信息 摘要 与 解密 后 的 信息 摘要 相同 ， 
就 可 以 证 明 该 信息 在 传输 过 程 中 没有 被 算 改 或 改变 过 。 

(2) 发 送 端 的 身份 认证 

数字 签名 技术 使 用 公 钥 加 密 算 法 ,发 送 端 使 用 自己 的 私 钥 对 发 送 的 信息 进行 加 密 。 接 
收 端 可 以 通过 发 送 端的 公 钥 解密 接收 到 的 信息 。 这 样 ,接收 端 便 可 以 证 实 该 信息 是 由 发 送 
端 发 送 的 ,同时 也 可 以 确认 发 送 端的 身份 。 因 为 除了 发 送 端 之 外 ,没有 人 可 以 生成 这 样 的 
密 文 。 

(3) 防止 交易 中 的 抵赖 发 生 

当 交易 中 的 抵赖 行为 发 生 时 ,接收 端 可 以 将 接收 到 的 密 文 呈现 给 第 三 方 。 由 于 该 密 文 
由 发 送 端的 私 钥 生 成 ,其 他 任何 人 都 不 可 能 产生 该 密 文 ,而 发 送 端 的 公 钥 是 对 公众 公开 的 ， 
任何 人 都 可 以 获得 该 公 钥 ,任何 人 都 可 以 解 开 该 密 文 。 这 样 ,第 三 方 就 可 以 通过 公 钥 解密 接 
收 方 呈送 的 密 文 , 同 时 判断 发 送 方 是 否 发 生 了 抵赖 行为 。 

目前 ,数字 签名 技术 的 研究 主要 集中 在 : 不 可 否认 签名 、 防 失败 签名 . 盲 签名 与 群 签名 
等 方面 。 


3. 身份 认证 技术 的 研究 


身份 认证 可 以 通过 以 下 3 种 基本 途径 之 一 或 它们 的 组 合 来 实现 。 

(1) 所 知 (knowledge): 个 人 所 掌握 的 密码 .口令 等 。 

(2) MA (possesses): 个 人 的 身份 证 ,护照 ,信用卡 、 钥 匙 等 。 

(3) 个 人 特征 (characteristics): 人 的 指纹 . 声 纹 、 笔 迹 . 手 型 脸型. 血型 .视网膜 .虹膜 、 
DNA, 以 及 个 人 动作 方面 的 特征 等 。 根 据 安全 要 求 和 用 户 可 接受 的 程度 ,以 及 成 本 等 因素 ， 
可 以 选择 适当 的 组 合 ,来 设计 一 个 自动 身份 认证 系统 。 

网 络 环境 中 个 人 身份 认证 的 新 技术 是 下 一 阶段 网 络 安全 研究 的 重点 问题 之 一 。 对 安全 
性 要 求 较 高 的 系统 ,由 口令 和 证 件 等 提供 的 安全 保障 是 不 完善 的 。 口 令 可 能 被 泄露 ,证 件 可 
能 丢失 或 被 伪造 。 更 高 级 的 身份 验证 是 根据 用 户 的 个 人 特征 来 进行 确证 , 它 是 一 种 可 信 度 
高 ,而 又 难于 伪造 的 验证 方法 。 新 的 广义 的 生物 统计 学 方法 正在 成 为 网 络 环境 中 个 人 身份 
认证 技术 中 的 最 简单 而 安全 的 方法 。 它 是 利用 个 人 所 特有 的 生理 特征 来 设计 的 。 个 人 特征 
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包括 很 多 ,如 容貌 \ 肤 色 、 发 质 、 身 材 、 姿 势 、 手 印 .指纹 、 脚 印 、 唇 印 、 颅 相 \ 口 音 、 脚 步 声 \ 体 味 、 
视网膜 ,血型 .遗传 因子 、 笔 迹 、 习 惯性 签字 ,打字 前 律 , 以 及 在 外 界 刺激 下 的 反应 等 。 当 然 ， 
采用 哪 种 方式 还 要 看 是 否 能 够 方便 地 实现 ,以 及 是 不 是 能 够 被 用 户 所 接受 。 

个 人 特征 都 具有 “ 因 人 而 异 " 和 随身 “携带 ”的 特点 ,不 会 丢失 且 难 于 伪造 ,适用 于 高 级 别 
个 人 身份 认证 的 要 求 。 因 此 ,将 生物 统计 学 与 网 络 安全 、 身 份 认证 结合 起 来 是 目前 网 络 安 全 
研究 的 一 个 重要 课题 。 


4. 公 钥 基础 设施 PKI 的 研究 


公 钥 基础 设施 (Public Key Infrastructure,PKI) 是 利用 公 钥 加 密 和 数字 签名 技术 建立 
的 提供 安全 服务 的 基础 设施 。 它 为 用 户 建立 一 个 安全 的 网 络 运行 环境 ,使 用 户 能 够 在 多 种 
应 用 环境 之 下 方便 地 使 用 加 密 的 数字 签名 技术 ,从 而 保证 网 络 上 数据 的 机 密 性 、 完 整 性 与 不 
可 抵赖 性 。 一 个 PKI 系 统 对 用 户 是 透明 的 和 安全 的 ,用 户 在 获得 加 密 和 数字 签名 服务 的 时 
候 ,不 需要 知道 PKI 是 如 何 管理 证 书 与 密 钥 的 。 

PKI 的 主要 任务 是 确定 可 信任 的 数字 身份 ,而 这 些 身份 可 以 用 来 与 密码 机 制 相 结合 ， 
供认 证 ,授权 或 数字 签名 验证 等 服务 。PKI 系统 实现 的 关键 是 密 钥 的 管理 。 因 此 一 个 实用 
的 公 钥 基础 设施 PKI 包括: 认证 中 心 (Certificate Authority. CAO ,注册 认证 (Registration 
Anuthority,RA) 中 心 .策略 管理 、 密 钥 与 证 书 的 管理 、 密 钥 的 备份 与 恢复 等 。 数 字 证 书 是 公 
钥 密 码 体制 中 的 权威 电子 文档 ,也 是 网 络 环境 中 的 身份 证 ,用 来 证 明 一 个 主体 (用 户 与 服务 
器 等 ) 身 份 与 它 使 用 的 私 钥 的 合法 性 的 数字 TD. 

作为 PKI 的 一 种 应 用 ,基于 PKI 的 VPN 研究 也 随 着 B2B 电子 商务 的 发 展 而 发 展 。 
同时 ,基于 PKI 的 应 用 还 有 很 多 ,如 W eb 服务 器 与 浏览 器 之 间 的 应 用 、 安 全 电子 邮件 、 电 
子 数据 交换 、Internet 环境 中 的 信用 卡 交易 等 。 无 线 网 络 环境 中 的 PKI 系统 的 研究 也 是 
目前 的 重要 课题 。 应 该 说 ,PKI 在 一 些 发 达 国 家 已 经 进入 了 实际 应 用 阶段 ,有 了 成 熟 的 产 
品 与 应 用 系统 。 但 是 目前 在 我 国 仍然 处 于 起 步 与 示范 工程 阶段 , 随 着 电子 商务 、 电 子 政 
务 的 发 展 , 发 展 适合 中 国 国情 的 PKI 技 术 , 研 制 和 开发 自主 ,完整 和 成 熟 的 PKI 产品 非常 
迫切 。 


5. 信息 隐藏 技术 的 研究 


信息 隐藏 (information hinding) 也 称 为 信息 伪装 。 它 是 利用 人 类 感觉 器 官 对 数字 信号 
的 感觉 元 余 ,将 一 些 秘密 信息 以 伪装 的 方式 隐藏 在 非 秘密 的 信息 之 中 ,达到 在 网 络 环境 中 隐 
项 通信 和 隐蔽 标识 的 目的 。 信 息 加 密 是 将 明文 变 成 第 三 方 不 认识 的 密 文 ,第 三 方 知道 密 文 
的 存在 ,而 信息 隐藏 技术 是 使 第 三 方 不 知道 密 文 的 存在 。 信 息 隐藏 技术 由 两 个 部 分 组 成 : 
信息 嵌入 算法 隐蔽 信息 检测 与 提取 算法 。 如 果 从 广义 的 信息 隐藏 技术 的 定义 出 发 ,目前 信 
息 隐 藏 技术 研究 的 内 容 大 致 可 以 分 为 : 隐蔽 信道 、 隐 写 术 、 匿 名 通信 与 版 权 标 志 等 4 个 
方面 。 


1.3.8 网络 安 全 应 用 技术 研究 
网 络 安全 应 用 技术 研究 主要 包括 : I 人 P 安 全 、VPN 技术 、 电 子 邮 件 安全 、Web 安全 。 
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1. IP 安全 的 研究 


IP 协议 本 质 上 是 不 安全 的 ,伪造 一 个 IP 分 组 , 自 改 IP 分 组 的 内 容 , 罕 探 传输 中 分 组 的 
内 容 都 是 比较 容易 的 。 接 收 端 不 能 保证 一 个 IP 分 组 确实 来 自 于 它 的 源 IP 地 址 ,也 不 能 保 
证 IP 分 组 在 传输 过 程 中 没有 泄露 或 被 算 改 。 为 了 解决 IPv6 协议 的 安全 性 问题 ,IETF 于 
1995 年 成 立 了 一 个 IP 协议 与 密 钥 管理 机 制 的 组 织 , 研 究 在 IP 协议 上 保证 Internet 数据 传 
输 安全 性 的 标准 。 这 个 组 织 在 几 年 的 工作 中 ,提出 了 一 系列 的 协议 ,构成 了 一 个 安全 体系 
(IP Security protocol, IPSec), IPSec 具有 以 下 儿 个 特征 : 

(1) IPSec 是 IETF 在 开发 IPv6 时 为 保证 IP 数据 包 安全 而 设计 的 ,是 IPv6 协议 的 一 部 
分 。IPSec 可 以 向 IPv4 与 IPv6 提供 互 操 作 、 高 质量 与 基于 密码 的 安全 性 。 

(2) IPSec 提供 的 安全 服务 包括 访问 控制 完整 性 及 数据 原始 认证 等 。 这 些 服务 在 
Internet 的 网 络 层 提 供 ,并 向 Internet 的 网 络 层 与 更 高 层 提供 保护 。 

(3) IPSec 协议 实际 上 是 一 个 协议 包 ,而 不 是 单一 的 一 种 协议 。 它 的 安全 结构 由 3 个 主 
要 的 协议 以 及 加 密 与 认证 算法 组 成 . 它 包 括 认 证 头 (authentication header,AH) 协 议和 封装 
安全 载荷 (encapsulating security payload,ESP) 协 议 , 以 及 Internet 安全 关联 密 钥 管 理 协 议 
(internet security association and key management protocol. ISAKMP) , Internet 密 钥 交换 
(internet key exchange. IKE) HPX 。 

IPSec 在 IP 层 对 数据 分 组 进行 高 强度 加 密 与 验证 服务 ,使 得 安全 服务 独立 于 应 用 程 
序 , 各 种 应 用 程序 都 可 以 共享 IP 层 所 提供 的 安全 服务 。 


2. VPN 技术 的 研究 


传统 的 大 型 企业 网 的 组 建 方案 中 ,为 了 实现 处 于 不 同 地 理 位 置 的 部 门 、 分 支 机 构 LAN 
与 LAN 之 间 的 远 距离 通信 ,除了 租用 DDN 专线 之 外 ,没有 其 他 的 解决 办 法 。 在 这 种 情况 
下 ,用 户 除 了 要 承担 昂贵 的 专线 租金 之 外 ,还 要 承担 繁杂 地 调制 解 调 器 与 接 入 设备 的 管理 任 
务 , 并 且 这 种 方法 的 扩展 性 与 灵活 性 较 差 。 随 着 帧 中 继 FR 网 络 与 ATM 网 络 的 大 量 应 用 ， 
使 虚拟 专 网 VPN 技术 成 为 可 能 。 但 是 基于 帧 中 继 与 ATM 网 络 的 VPN 同样 也 存在 着 扩 
展 性 与 灵活 性 差 的 缺点 。 不 同 电信 运营 商 的 帧 中 继 与 ATM 网 络 互 联 存 在 着 很 大 问题 ， 
VPN 的 虚 电 路 配置 与 维护 要 由 运营 商 来 完成 , 远 距 离 的 互联 还 涉及 多 个 运营 商 之 间 的 协调 
问题 。 在 这 样 的 背景 下 ,基于 IP 的 VPN 技术 表现 出 费用 低 、 组 网 灵活 与 具有 良好 可 扩展 
性 的 优点 ,因此 受到 电信 业 与 网 络 界 的 普遍 重视 。 随 着 Internet 的 大 规模 应 用 和 移动 办 公 
人 员 数 量 的 增加 ,1993 年 欧洲 虚拟 专 网 联盟 EVUA 成 立 ,并 致力 于 VPN 技术 的 研究 与 推 
J^, VPN 是 一 种 模拟 “专用 ”广域网 ,通过 构建 安全 网 络 平台 ,在 公用 通信 和 网络 的 通信 对 端 
之 间 建 立 一 条 安全 ,稳定 的 通信 隧道 ,为 用 户 提供 安全 的 通信 服务 。 

VPN 通过 隧道 技术 、 密 码 技术 、 密 钥 管 理 技 术 、 用 户 和 设备 认证 技术 来 保证 安全 的 通信 
服务 ,隧道 技术 是 实现 VPN 功能 的 基本 技术 。VPN 的 分 类 可 以 有 多 种 方法 ,可 以 根据 形成 
隧道 的 不 同 协议 来 进行 分 类 ,也 可 以 根据 VPN 所 使 用 的 传输 网 络 类 型 进行 分 类 。 


3. 电子 邮件 安全 技术 的 研究 
电子 邮件 存在 的 垃圾 邮件 ,诈骗 邮件 、 炸 弹 邮 件 、 病 毒 邮 件 等 问题 已 经 引起 了 人 们 的 高 
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度 重 视 。 未 加 密 的 数据 在 网 络 上 很 容易 被 截获 ,如 果 电 子 邮件 不 是 数字 签名 的 ,那么 用 户 无 
法 确定 邮件 是 从 哪里 发 送 来 的 。 要 解决 电子 邮件 的 安全 问题 ,有 3 种 研究 途径 : 端 到 端的 
安全 电子 邮件 技术 、 传 输 层 的 安全 电子 邮件 技术 以 及 邮件 服务 器 安全 技术 。 


4. Web 安全 技术 的 研究 


Web 是 Internet 中 最 重要 的 应 用 ,因此 Web 安全 受到 威胁 的 因素 也 越 多 ,这 是 很 自然 
的 ,那么 研究 Web 安全 威胁 就 显得 格外 重要 。 来 自 网 络 的 威胁 和 攻击 很 多 ,存在 不 同 的 分 
类 。 根 据 Web 访问 的 结构 分 类 ,可 以 分 为 : 对 Web 服务 器 的 安全 威胁 、 对 Web 浏览 器 的 安 
全 威胁 和 对 通信 信道 的 安全 威胁 等 3 类 。 

根据 Web 访问 的 攻击 性 质 分 类 ,可 以 分 为 : 主动 攻击 与 被 动 攻击 等 两 类 。 

根据 Web 访问 的 威胁 造成 的 后 果 分 类 ,可 以 分 为 : 对 Web 数据 完整 性 的 攻击 、 对 Web 
数据 保密 性 的 攻击 、 对 Web 系统 的 拒绝 服务 攻击 与 对 Web 认证 鉴别 的 攻击 等 4 类 。 

对 于 攻击 者 来 说 , Web 服务器、 数据 库 服务 器 有 很 多 弱点 可 以 被 利用 ,比较 明显 的 弱点 
在 服务 器 的 CGI 程序 与 一 些 工 具 程序 上 。Web 服务 的 内 容 越 丰富 ,应 用 程序 越 大 , 则 包含 
错误 代码 的 概率 就 越 高 。 程 序 设 计 人 员 在 编写 CGI 程序 与 一 些 工 具 程序 时 ,一 个 简单 的 错 
误 和 不 规范 的 编程 都 有 可 能 为 系统 增加 了 一 个 安全 漏洞 。CGI 程序 和 脚本 程序 可 以 驻 留 在 
任何 部 分 ,这 种 规定 给 软件 编程 带 来 了 很 多 的 方便 ,但 同时 也 为 攻击 者 提供 了 可 乘 之 机 。 一 
个 故意 放置 恶意 代码 的 CGI 程序 能 够 自由 地 访问 系统 资源 ,使 系统 失效 .删除 文 件 ,盗窃 用 
户 资料 ,控制 服务 器 ,而 系统 对 CGI 程序 的 跟踪 和 管理 却 很 困难 。 

对 于 用 户 端的 浏览 器 来 说 ,静态 页 面 由 标准 的 HTML 语言 编制 ,其 作用 是 显示 页 面 内 
容 和 链接 其 他 页 面 。 但 是 随 着 动态 网 页 技术 的 出 现 ,情况 发 生 了 较 大 变化 。 动 态 页 面 是 在 
静态 页 面 之 中 嵌入 对 于 用 户 是 透明 的 应 用 程序 ,在 用 户 浏 览 一 个 页 面 时 ,这 些 应 用 程序 就 会 
自动 地 被 下 载 ,并 启动 运行 。 企 图 破坏 客户 端的 人 就 可 以 利用 这 个 机 制 将 具有 破坏 性 的 恶 
意 程 序 自动 下 载 到 客户 计算 机 中 ,窃取 客户 资料 ,控制 用 户 计算 机 或 删除 用 户 信息 。 用 户 可 
以 在 Interent 上 下 载 的 应 用 程序 与 工具 程序 非常 多 ,用 户 无 法 判断 哪些 是 恶意 的 。 因 此 ,用 
户 所 做 的 最 危险 的 行为 是 : 从 网 上 任意 下 载 程序 ,并 在 本 机 上 运行 。 这 在 Web 环境 中 几乎 
是 每 一 位 用 户 都 有 可 能 做 的 事 。 按 照 正常 的 规则 ,运行 一 个 程序 就 相当 于 已 经 接受 了 程序 
开发 人 员 的 控制 。 对 于 开放 的 Web 系统 来 说 , 面 对 大 量 的 用 户 ,安全 的 威胁 随时 都 会 出 现 。 
因此 ,研究 应 对 Web 安全 的 研究 一 直 是 一 个 富有 挑战 性 的 问题 。 从 网 络 体系 结构 的 角度 ， 
Web 安全 技术 的 研究 可 以 分 别 从 网 络 层 协议 、 传 输 层 协议 和 应 用 层 协议 着 手 。 

Web 安全 涉及 操作 系统 数据库、 防火墙 应 用 程序 与 其 他 多 项 安全 技术 ,是 一 个 系统 
的 安全 工程 ,不 能 简单 地 从 Web 协议 的 角度 去 解决 问题 。 只 有 综合 考虑 各 方面 的 因素 , 集 
成 多 种 安全 技术 ,才能 够 切实 保证 Web 系统 的 安全 。 


1.4 网 络 安全 技术 领域 自主 培养 人 才 的 重要 性 


1.4.1 网 络 安全 技术 人 才 培 养 的 迫切 性 
关于 网 络 安全 技术 的 重要 性 以 及 网 络 安全 技术 人 才 培养 的 迫切 性 问题 ,可 以 从 美国 政 
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府 的 两 份 文件 的 相关 描述 中 得 到 重要 的 启发 。 

1991 年 美国 政府 的 咨询 报告 中 有 一 段 关于 “计算 机 风险 ”的 描述 。 他 们 写 道 :“ 我 们 处 
在 风险 之 中 。 美 国 依赖 计算 机 。 计 算 机 控制 了 供电 通信 、 航 空 和 金融 服务 ;它们 被 用 来 存 
储 至 关 重 要 的 信息 ,从 医疗 档案 到 企业 计划 ,到 犯罪 记录 。 尽 管 我 们 信任 计算 机 ,但 是 仅 就 
设计 欠缺 和 缺乏 足够 的 质量 控制 而 言 , 它 们 具有 易于 受到 事故 和 故意 攻击 的 缺陷 ,这 也 是 最 
值得 人 们 警惕 的 。 现 代 窃 贼 用 计算 机 比 用 枪支 能 够 偷 到 更 多 的 东西 。 也 许 明 天 的 恺 怖 分 子 
能 够 用 键盘 比 用 炸弹 造成 更 大 的 破坏 。” 

2000 年 美国 白宫 的 一 份 关于 《保护 信息 系统 国家 计划 ) 中 写 道 :“ 重 中 之 重 是 人 员 培 
训 。 你 会 看 到 ,国家 计划 把 信息 空间 的 保护 放 在 新 的 安全 标准 、 多 层次 防御 技术 、 新 的 科学 
研究 ,以 及 人 员 培 训 上 。 所 有 这 些 基 础 中 ,最 紧迫 、 最 困难 ,也 是 其 他 一 切 因 素 先决 条 件 的 ， 
是 一 支 受 过 训练 的 信息 与 计算 机 技术 专家 队伍 。 一 个 世纪 前 , 当 美国 在 迅速 实现 电力 网 络 
化 的 时 候 , 它 也 迅速 地 为 这 一 新 的 经 济 行业 培训 出 电气 工程 师 。 现 在 , “计划 ’ 提 出 措施 来 刺 
激 高 等 教育 的 发 展 ,以 便 培 养 美国 在 这 一 领域 迫切 需要 的 专门 人 才 。” 

2009 年 我 国 Internet 的 网 民 人 数 已 经 达到 3. 38 亿 , 居 世界 第 一 ,各 种 网 络 应 用 快速 发 
展 。 我 们 应 该 清醒 地 认识 到 ,对 于 社会 经 济 、 科 学 与 教育 高 速 发 展 的 中 国 来 说 , 重 中 之 重 也 
是 网 络 安全 专业 人 员 的 培养 。 


1.4.2 网 络 安全 技术 人 才 培 养 的 特点 


从 以 上 的 讨论 中 可 以 看 出 以 下 几 点 关于 网 络 安全 技术 的 特点 ,以 及 社会 对 网 络 安全 技 
术 人 才 需 求 的 发 展 趋势 。 

COD 社会 急需 大 量 、 各 个 层次 的 网 络 安全 技术 人 才 

社会 对 于 网 络 的 依赖 程度 越 高 ,网 络 安 全 就 越发 显得 重要 。 要 保障 涉及 全 社会 各 行 各 
业 与 各 个 领域 的 网 络 与 信息 系统 的 安全 ,急需 大 量 、 各 个 层次 的 技术 人 才 。 随 着 网 络 应 用 的 
不 断 扩大 和 技术 的 日 益 发 展 ,网 络 安全 研究 的 内 容 将 不 断 地 变化 和 扩展 ,新 的 问题 不 断 提 
出 ,各 种 新 的 网 络 安全 软 硬 件 产品 需要 研发 ,尤其 是 能 够 掌握 网 络 安全 系统 设计 与 软件 编程 
能 力 的 高 层次 技术 人 才 十 分 荐 乏 。 

(2) 高 层次 网 络 安全 人 才 培 养 是 相当 重要 和 艰巨 的 一 项 任务 

网 络 安全 涉及 的 内 容 非常 广 ,不 是 简单 地 教学 生 如 何 选择 网 络 安全 设备 ,懂得 安装 调试 
网 络 安全 设备 就 可 以 了 。 网 络 安全 是 一 种 应 用 性 很 强 的 技术 ,简单 地 通过 上 一 门 课 , 或 者 是 
读 几 本 书 是 没有 办 法 真正 掌握 这 门 技术 的 。 网 络 安全 技术 涉及 密码 学 、 计 算 机 软 硬 件 技术 、 
通信 技术 、 微 电子 芯片 设计 技术 、 法 律 法 规 与 网 络 行为 学 知识 。 一 位 好 的 高 层次 网 络 安全 人 
才 必 须 在 以 上 几 个 方面 具备 很 好 的 学 术 基础 ,具备 很 高 的 职业 道德 与 法 律 意识 。 同 时 ,设计 
一 个 好 的 网 络 安全 产品 ,实际 上 是 在 同心 术 不 正 的 黑客 斗智 斗 勇 。 一 个 成 功 的 网 络 安全 技 
术 人 员 必 然 要 具有 很 强 的 事业 心 与 研究 精神 。 因 此 ,培养 高 层次 网 络 安全 人 才 是 相当 困难 
的 。 同 时 ,合格 的 高 层次 网 络 安全 人 才 也 必然 是 技术 精英 和 社会 的 宝贵 财富 。 大 学 研究 生 
教育 应 当 义 不 容 辞 地 承担 起 培养 合格 的 高 层次 网 络 安全 人 才 的 任务 。 

(3) 涉及 我 国 网 络 安全 的 核心 技术 必须 由 我 国 技术 人 员 人 掌握 

由 于 网 络 安全 关乎 国家 安全 、 社 会 稳定 与 民众 的 切身 利益 ,因此 涉及 网 络 安全 的 核心 技 
术 必 须 立 足 于 国内 研究 部 门 完成 ,关键 网 络 安全 设备 的 算法 、 软 件 、 核 心 芯片 都 必须 立足 于 
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内 产业 设计 与 生产 。 网 络 安全 的 核心 技术 ,以 及 国家 网 络 与 信息 安全 关键 管理 岗位 都 必 
须 由 可 靠 的 技术 人 员 担 任 。 这 是 各 国都 要 遵循 的 原则 。 处 于 高 速 发 展 的 中 国政 府 、 教 育 界 
与 产业 界 对 这 个 问题 必须 有 清醒 地 认识 。 

随 着 计算 机 网 络 和 Internet 的 应 用 越 来 越 广泛 ,社会 对 网 络 依赖 的 程度 也 越 来 越 高 , 社 
会 对 掌握 网 络 安全 知识 与 技能 的 高 层次 人 才 的 需求 必然 会 越 来 越 强 烈 ,这 也 就 为 大 学 毕业 
生 提供 了 很 多 就 业 机 会 。 因 此 ,学 习 和 人 掌握 网 络 安全 技术 对 于 提高 计算 机 及 相关 专业 毕业 
生 的 就 业 竞争 力也 是 非常 有 益 的 。 


1.5 网 络 安全 软件 编程 课题 训练 的 基本 内 容 与 目的 


1.5.1 基于 DES WEH TCP 聊天 程序 编程 训练 的 基本 内 容 与 目的 


DES 算法 是 一 种 典型 的 对 称 分 组 加 密 算法 ,也 是 应 用 密码 学 中 最 基本 的 加 密 算法 之 
一 ,目前 广泛 应 用 于 网 络 通 信 加 密 、 数 据 存 储 加 密 \ 口 令 与 访问 控制 系统 之 中 。 掌 握 DES 算 
法 在 网 络 通 信 中 的 应 用 对 于 理解 对 称 加 密 算法 非常 有 益 。 这 里 以 加 密 TCP 聊天 程序 为 任 
务 ,研究 基于 DES 的 通信 加 密 应 用 软件 的 设计 与 编程 方法 。 

训练 的 主要 目的 是 : 

(1) 理解 对 称 加 密 算法 DES 的 基本 工作 原理 。 

(2) 掌握 将 对 称 加 密 DES 算法 应 用 于 网 络 通信 的 基本 设计 方法 与 实现 技术 。 

(3) 掌握 Linux 操作 系统 socket 编程 的 基本 方法 。 


1.5.2 基于 RSA 算法 自动 分 配 密 钥 的 加 密 聊 天 程序 编程 训练 的 
基本 内 容 与 目的 

在 讨论 了 传统 的 对 称 加 密 算法 DES 原理 与 实现 方法 的 基础 上 ,这 里 将 以 典型 的 公 钥 密 
码 体系 中 RSA 算法 为 例 ,以 基于 TCP 协议 的 聊天 程序 加 密 为 任务 ,系统 地 讨论 公 钥 密 码 体 
£ RSA 算法 的 基本 工作 原理 与 软件 编程 方法 。 

训练 的 主要 目的 是 : 

CD. 理解 RSA 算法 的 基本 工作 原理 。 

(2) 掌握 将 RSA 算法 应 用 于 网 络 通信 系统 的 基本 设计 方法 与 实现 技术 。 

(3) 掌握 在 Linux 操作 系统 中 实现 RSA 算法 的 编程 方法 。 

CD. TIR Linux 操作 系统 异步 1/O 接口 的 基本 工作 原理 。 


1.5.3 基于 MD5 算法 的 文件 完整 性 校 验 程序 编程 训练 的 基本 
内 容 与 目的 
MD5 算法 是 目前 最 流行 的 信息 摘要 算法 ,已 广泛 应 用 于 数字 签名 ,文件 完整 性 检测 等 
领域 。 熟 悉 MD5 算法 对 于 开发 安全 的 网 络 应 用 程序 具有 重要 意义 。 
训练 的 主要 目的 是 : 
CD 理解 MD5 算法 的 基本 原理 。 
(2) 掌握 利用 MD5 算法 生成 数据 摘要 的 计算 方法 。 
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(3) 掌握 将 MD5 算法 应 用 于 文件 完整 性 校 验 的 基本 设计 与 编程 方法 。 
(4) 掌握 在 Linux 操作 系统 中 检测 文件 完整 性 的 基本 方法 。 


1.5.4 基于 Raw Socket 的 Sniffer 设计 与 编程 训练 的 基本 内 容 与 目的 


网 络 监控 软件 能 够 监控 网 络 流量 ,发 现 网 络 中 异常 的 数据 流 , 了 解 黑客 攻击 的 手段 ,有 
效 地 发 现 和 防御 网 络 攻 击 ,是 保证 网 络 安全 的 重要 工具 和 手段 之 一 ,也 是 网 络 安全 技术 人 员 
必须 掌握 的 重要 技能 之 一 。 这 里 研究 基于 Raw Socket 的 Sniffer 系统 设计 与 软件 编程 
方法 。 

训练 的 主要 目的 是 : 

CD 理解 网 络 嗅 探 器 Sniffer 的 基本 工作 原理 与 实现 方法 。 

(2) 掌握 Raw Socket 的 基本 工作 原理 。 

(3) 掌握 TCP/IP,ICMP 协议 原理 及 socket 编程 方法 。 


1.5.5 基于 OpenSSL 的 安全 Web 服务 器 设计 与 编程 训练 的 基本 
内 容 与 目的 


Web 使 用 的 传输 协议 是 HTTP 协议 。HTTP 采用 明文 传输 ,网 络 传输 中 的 重要 数据 
有 被 第 三 方 截获 的 危险 。 安 全 超 文本 传输 协议 (Hypertext Transfer Protocol over SSL， 
HTTPS) 用 于 保护 敏感 数据 在 Web 系统 中 的 传输 安全 。HTTPS 通过 安全 套 接 字 协议 层 
(Secure Socket Layer,SSL) 加 密 HTTP 数据 ,并 可 以 与 HTTP 数据 共存 。 因 此 ,研究 基于 
OpenSSL 的 安全 Web 服务 器 的 设计 与 软件 编程 方法 ,对 于 提高 Web 系统 的 安全 性 有 着 重 
要 的 意义 。 

训练 的 主要 目的 是 : 

(1) 理解 HTTPS 协议 与 SSL 协议 的 基本 工作 原理 。 

(2) 掌握 使 用 OpenSSL 编程 的 方法 。 

(3) 掌握 安全 Web 系统 设计 的 基本 设计 与 编程 方法 。 


1.5.6 ”网络 端口 扫描 器 设计 与 编程 训练 的 基本 内 容 与 目的 


网 络 端口 扫描 器 是 一 种 重要 的 网 络 安全 检测 设备 ,也 是 网 络 黑客 攻击 的 重要 工具 之 一 。 
通过 端口 扫描 ,不 仅 可 以 发 现 目标 主机 的 开放 端口 和 操作 系统 的 类 型 ,还 可 以 查找 系统 的 安 
全 漏洞 ,获得 口令 缺陷 等 相关 信息 。 因 此 ,掌握 端口 扫描 的 基本 工作 原理 与 软件 设计 方法 是 
网 络 安全 工程 师 必须 掌握 的 基本 技能 之 一 。 同 时 ,研究 网 络 端口 扫描 器 的 实现 方法 ,对 于 维 
护 网 络 系统 的 安全 ,了 解 黑客 攻击 的 手段 有 着 重要 意义 。 

训练 的 主要 目的 是 : 

CD 理解 网 络 端口 扫描 器 的 基本 结构 .工作 原理 与 设计 方法 。 

(2) 掌握 TCP connect Hfi, TCP SYN 扫描 、TCP FIN 扫描 以 及 UDP 扫描 的 基本 工 
作 原 理 、 设 计 与 实现 方法 。 

(3) 掌握 ping 程序 的 设计 与 实现 方法 。 

(4) 掌握 Linux 操作 系统 多 线程 编程 的 基本 方法 。 
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1.5.7. 网 络 诱骗 系统 设计 与 编程 训练 的 基本 内 容 与 目的 


网 络 诱骗 是 一 种 主动 网 络 防护 与 网 络 取证 的 主要 手段 之 一 ,对 于 保护 网 络 应 用 系统 安 
全 具有 重要 作用 。 这 里 在 讨论 网 络 诱骗 基本 原理 的 基础 上 ,系统 地 研究 系统 结构 设计 与 软 
件 编程 的 基本 方法 。 

训练 的 主要 目的 是 : 

(1) 理解 网 络 诱骗 系统 基本 工作 原理 。 

(2) 理解 Linux 系统 调用 实现 和 原理 ,以 及 对 系统 调用 的 扩展 方法 。 

(3) 掌握 Loadable Kernel Module 编程 的 相关 知识 和 方法 。 

(4) 了 解 Linux 系统 中 程序 隐藏 的 方法 。 


1.5.8 ”入侵 检 测 系统 设计 与 编程 训练 的 基本 内 容 与 目的 


人 入侵 检 测 系统 (IDS) 是 一 种 对 网 络 传输 进行 实时 监视 ,并 在 发 现 可 疑 传输 时 发 出 警报 
或 者 采取 主动 防御 措施 的 网 络 安全 设备 。 入 侵 检测 分 为 特征 检测 与 异常 检测 。 这 里 在 系统 
分 析 入 侵 检测 系统 基本 工作 原理 的 基础 上 ,以 基于 特征 检测 的 入 侵 检测 系统 为 任务 ,研究 人 
侵 检测 系统 的 设计 与 软件 编程 方法 。 

训练 的 主要 目的 是 : 

(1) 掌握 基于 特征 的 入 侵 检 测 系统 的 基本 工作 原理 、 设 计 与 实现 方法 。 

(2) 掌握 K-Means 算法 的 计算 过 程 。 

(3) 掌握 在 网 络 安全 研究 中 应 用 数据 挖掘 技术 的 基本 概念 与 方法 。 


1.5.9 基于 Netfilter 111 IPTables 防火 墙 系统 设计 与 编程 训练 的 
基本 内 容 与 目的 


网 络 上 充斥 着 各 种 病毒 ,木马 以 及 针对 主机 漏洞 的 攻击 。 如 何 使 网 络 主机 有 效 抵御 各 
种 非法 入 侵 ,保证 重要 数据 的 机 密 性 和 安全 性 已 成 为 当前 网 络 上 一 个 或 待 解决 的 问题 。 防 
火 墙 是 保护 网 络 资源 的 重要 手段 之 一 。 这 里 以 Netfilter/IPTables 为 工具 ,研究 防火 墙 系统 
设计 与 软件 编程 的 方法 。 

训练 的 主要 目的 是 : 

(1) 理解 防火 墙 技 术 的 基本 工作 原理 。 

(2) 理解 Linux 环境 中 Netfilter/IPTables 的 工作 机 制 。 

(3) 掌握 对 Netfilter 内 核 模块 进行 扩展 编程 的 基本 方法 。 

(4) 掌握 通过 IPTables 构建 防火 墙 的 基本 方法 。 


1.5.10 Linux 内 核 网 络 协议 栈 加 固 编程 训练 的 基本 内 容 与 目的 


Linux 是 一 种 开发 源 代 码 的 操作 系统 ,程序 开发 人 员 能 够 通过 修改 或 升级 其 源 代码 对 
系统 进行 加 固 。 这 里 通过 加 固 Linux 网 络 协议 栈 ,改变 Linux 内 核对 孤立 TCP SYN 数据 
包 的 处 理 方式 ,研究 提升 系统 对 TCP SYN 拒绝 服务 攻击 的 防御 能 力 的 基本 方法 。 

训练 的 主要 目的 是 : 

CD 理解 TCP 连接 建立 过 程 ,以 及 拒绝 服务 式 攻击 的 基本 原理 与 方法 。 

(2) 结合 Linux 内 核 源 代码 的 分 析 ,理解 Linux 网 络 协议 栈 的 实现 原理 。 
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(3) 掌握 对 TCP SYN Flood 的 防御 手段 ,以 及 对 Linux 内 核 进行 扩展 开发 的 方法 。 
(4) Tff Linux TCP cookie 防火 墙 的 工作 原理 。 


1.5.11 利用 Sendmail 收发 和 过 滤 邮 件 系统 设计 与 编程 训练 的 
基本 内 容 与 目的 


随 着 电子 邮件 应 用 的 深入 ,垃圾 邮件 日 趋 泛 滥 。 大 量 的 垃圾 邮件 不 仅 增加 了 网 络 的 负 
担 , 更 为 诈骗 病毒 攻击 等 行为 提供 了 方便 。 因 此 ,掌握 电子 邮件 相关 的 软件 编程 技术 和 基 
本 的 垃圾 邮件 过 滤 技术 ,对 于 软件 人 员 至 关 重 要 。 这 里 将 利用 Sendmail 邮件 服务 器 的 
milter 接口 ,实现 简单 的 垃圾 邮件 过 滤 功 能 ,帮助 读者 掌握 Linux 环境 下 垃圾 邮件 过 滤 软 件 
编程 的 基本 思路 和 方法 。 

训练 的 主要 目的 是 : 

(1) 掌握 Linux 环境 下 利用 Sendmail 邮件 服务 器 的 milter 接口 的 回调 函数 实现 简单 
的 垃圾 邮件 过 滤 软 件 编程 的 基本 思路 和 方法 。 

(2) 掌握 利用 黑 名 单 与 白 名单 判 断 邮 件 的 拒绝 接收 或 转发 软件 的 设计 与 编程 方法 。 

(3) 掌握 根据 关键 字 过 滤 方 法 判断 邮件 的 拒绝 接收 或 转发 软件 的 设计 与 编程 方法 。 
1.5.12 基于 特征 码 的 恶意 代码 检测 系统 的 设计 与 编程 训练 的 基本 

内 容 与 目的 

基于 特征 代码 的 恶意 代码 检测 系统 是 一 种 对 文件 进行 扫描 检测 判定 是 否 含有 恶意 代码 
的 安全 软件 。 这 里 在 系统 分 析 恶 意 代码 检测 系统 基本 工作 原理 的 基础 上 ,以 基于 特征 检测 
的 恶意 代码 检测 系统 为 对 象 ,研究 恶意 代码 检测 系统 的 设计 与 软件 编程 方法 。 

训练 的 主要 目的 是 : 

(1) 掌握 恶意 代码 的 分 类 主要 文件 格式 和 相关 检测 技术 等 基本 概念 和 背景 知识 。 

(2) 掌握 基于 特征 的 恶意 代码 检测 系统 的 基本 工作 原理 .设计 与 实现 方法 。 

(3) 掌握 使 用 p3scan 和 ClamAV 组 建 邮件 病毒 拦截 网 关 的 软件 编程 方法 。 

表 1-1 总 结 了 以 上 3 种 类 型 的 12 个 软件 编程 训练 课题 的 选取 思路 .训练 目的 和 要 求 。 

表 1-1 编程 训练 的 目的 与 要 求 

序号 | 类 型 W 题 H 的 


(1) 理解 对 称 加 密 算法 DES 的 基本 工作 原理 

基于 DES 加 密 的 | (2) 掌握 将 对 称 加 密 DES 算法 应 用 于 网 络 通信 的 基本 设计 方法 与 实 
TCP 聊天 程序 现 技术 

(3) 掌握 Linux 操作 系统 socket 编程 的 基本 方法 


COD 理解 RSA 算法 的 基本 工作 原理 

(2) 掌握 将 RSA 算法 应 用 于 网 络 通信 系统 的 基本 设计 方法 与 实现 技术 
(3) 掌握 在 Linux 操作 系统 中 实现 RSA 算法 的 编程 方法 

(4) 了 解 Linux 操作 系统 异步 1/0 接口 的 基本 工作 原理 


基于 RSA 算法 自 
动 分 配 密 钥 的 加 密 
聊天 程序 


2B EDO Ra 3k S ERR 


COD 理解 MD5 算法 的 基本 原理 

(2) 掌握 利用 MD5 算法 生成 数据 摘要 的 计算 方法 

(3) 掌握 将 MD5 算法 应 用 于 文件 完整 性 校 验 的 基本 设计 与 编程 方法 
(4) 掌握 在 Linux 操作 系统 中 检测 文件 完整 性 的 基本 方法 


基于 MD5 算法 的 
3 文件 完整 性 校 验 
程序 


ms 


类 型 


课 题 
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续 表 
目 的 


基于 Raw Socket 
的 Sniffer 系统 


(1) 理解 网 络 嗅 探 器 Sniffer 的 基本 工作 原理 与 实现 方法 
(2) 掌握 Raw Socket 的 基本 工作 原理 
(3) 掌握 TCP/IP ICMP 协议 原理 及 socket 编程 方法 


基于 OpenSSL 的 
安全 Web 服务 器 


(1) 理解 HTTPS 协议 与 SSL 协议 的 基本 工作 原理 
(2) 掌握 使 用 OpenSSL 编程 的 方法 
(3) 掌握 安全 Web 系统 设计 的 基本 设计 与 编程 方法 


网 络 端口 扫描 器 
系统 


(1) 理解 网 络 端口 扫描 器 的 基本 结构 .工作 原理 与 设计 方法 

(2) 掌握 TCP connect 扫描 、TCP SYN 扫描 、TCP FIN 扫描 ,以 及 
UDP 扫描 的 基本 工作 原理 ,设计 与 实现 方法 

(3) 掌握 ping 程序 的 设计 与 编程 方法 

(4) 掌握 Linux 操作 系统 多 线程 编程 的 基本 方法 


网 络 诱骗 系统 


(1) 理解 网 络 诱骗 系统 的 基本 工作 原理 

(2) 理解 Linux 系统 调用 实现 和 原理 ,以 及 对 系统 调用 的 扩展 方法 
(3) 掌握 Loadable Kernel Module 编程 的 相关 知识 和 方法 

(4) 了 解 Linux 系统 中 程序 隐藏 的 方法 


入 侵 检 测 系 统 


(1) 掌握 基于 特征 的 人 侵 检测 系统 的 基本 工作 原理 ,设计 与 实现 方法 
(2) 掌握 K-Means 算法 的 计算 过 程 
(3) 掌握 在 网 络 安全 研究 中 应 用 数据 挖掘 技术 的 基本 概念 与 方法 


基于 Netfilter 和 
IPTables 防火 墙 
系统 


(1) 理解 防火 墙 技 术 的 基本 工作 原理 

(2) 理解 Linux 环境 中 Netfilter/IPTables 的 工作 机 制 
(3) 掌握 对 Netfilter 内 核 模块 进行 扩展 编程 的 基本 方法 
(4) 掌握 通过 IPTables 构建 防火 墙 的 基本 方法 


Linux 内 核 网 络 协 
议 栈 加 固 程序 


(1) 理解 TCP 连接 建立 过 程 ,以 及 拒绝 服务 式 攻击 的 基本 原理 与 方法 

(2) 结合 Linux 内 核 源 代码 的 分 析 , 理 解 Linux 网 络 协议 栈 的 实现 
原理 

(3) 掌握 对 TCP SYN Flood 的 防御 手段 ,以 及 对 Linux 内 核 进行 扩 
展开 发 的 方法 

(4) 了 解 Linux TCP cookie 防火 墙 的 工作 原理 
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利用 Sendmail 收 
发 和 过 滤 邮 件 系统 


(1) 掌握 Linux 环境 下 利用 Sendmail 邮件 服务 器 的 milter 接口 的 回 
调 函 数 实现 简单 的 垃圾 邮件 过 滤 软 件 编程 的 基本 思路 和 方法 
(2) 掌握 利用 黑 名 单 与 白 名 单 判断 邮件 的 拒绝 接收 或 转发 软件 的 设 

计 与 编程 方法 
(3) 掌握 根据 关键 字 过 滤 方 法 判断 邮件 的 拒绝 接收 或 转发 软件 的 设 
计 与 编程 方法 


基于 特征 码 的 恶意 
代码 检测 系统 


(1) 掌握 恶意 代码 的 分 类 ,主要 文件 格式 和 相关 检测 技术 等 基本 概念 
和 背景 知识 

(2) 掌握 基于 特征 的 恶意 代码 检测 系统 的 基本 工作 原理 ,设计 与 实现 
方法 

G) 掌握 使 用 p3scan 和 ClamAV 组 建 邮件 病毒 拦截 网 关 的 软件 编程 
方法 


27 


28 


网 络 安全 高 级 软件 编程 技术 


1.6 网 络 安全 软件 编程 课题 训练 教学 指导 


1.6.1 网 络 安全 软件 编程 训练 课题 选 题 的 指导 思想 


创新 是 一 个 民族 的 灵魂 ,而 在 网 络 与 信息 安全 领域 培养 具有 创新 能 力 的 高 水 平 人 才 , 产 
生 创 新 性 研究 成 果 , 开 发 具有 自主 知识 产权 的 产品 尤为 重要 。 当 前 我 国 网 络 安全 课程 的 教 
学 水 平 还 远 不 能 够 满足 国家 信息 化 建设 高 速 发 展 的 要 求 。 在 网 络 安全 教学 过 程 中 ,教学 内 
容 与 当前 技术 的 发 展 水 平 .理论 教学 与 实际 工作 能 力 的 培养 差距 明显 。 这 些 问 题 将 严重 地 
制约 网 络 安全 人 才 的 培养 质量 与 产业 的 发 展 。 

从 事 网 络 安全 与 信息 安全 专业 的 技术 人 员 可 以 分 为 工程 师 ,高 级 工程 师 与 专家 等 多 个 
层次 ,社会 对 各 个 层次 人 才 的 需求 都 非常 强烈 。 大 学 教育 如 果 只 能 培养 使 用 网 络 安全 产品 
的 人 是 远 远 不 够 的 。 现 在 我 国 网 络 安 全 产品 的 研发 很 多 是 在 国外 公开 的 网 络 安全 开源 软件 
的 基础 上 进行 的 。 这 种 方法 从 表面 上 看 是 一 条 捷径 ,“ 立 笔 见 影 ”, 可 以 很 快 见 成 效 ,但 是 我 
们 不 能 不 清醒 地 认识 到 这 是 一 种 “短视 "行为 ,并 且 存 在 巨大 和 潜在 的 危机 ,对 于 要 真正 形成 
有 具有 我 国 自主 知识 产权 的 网 络 安全 产品 非常 不 利 。 大 学 在 对 高 层次 信息 安全 专门 人 才 的 培 
养 上 必须 要 正视 这 个 问题 ,要 下 苦 功 夫 从 基础 开始 ,培养 能 够 产生 创新 思想 与 具备 研发 能 力 
的 专门 人 才 。 


1.6.2 网 络 安全 软件 编程 训练 课题 选 题 覆盖 的 范围 


为 了 达到 上 述 目的 ,作者 结合 多 年 的 科研 与 教学 实践 ,总 结 出 12 个 “近似 实战 ”的 研发 
课题 。 

网 络 安全 训练 的 课题 覆盖 了 从 密码 学 在 网 络 通信 和 与 数据 安全 中 的 应 用 ,网 络 端口 扫描 、 
网 络 嗅 探 器 .网络 诱 骗 , 网 络 人 侵 检测 、 安 全 Web, Dj Jii, Linux 内 核 网 络 协议 栈 程 序 加固 ， 
到 网 络 病毒 与 垃圾 邮件 的 检测 与 防治 技术 ,训练 课题 接近 学 科研 究 的 前 沿 ,覆盖 了 网 络 安全 
研究 的 主要 方向 。 软 件 编程 训练 课题 可 以 分 为 : 密码 学 及 应 用 、 网 络 安全 常规 技术 、 当 前 研 
究 的 热点 课题 的 综合 训练 等 3 个 部 分 ,训练 课题 的 比例 是 3 : 6 : 3。 

课题 内 容 材 盖 了 以 下 3 个 方面 的 问题 : 

(1) 网 络 安全 软件 设计 中 涉及 的 基本 问题 与 基本 方法 。 

(2) 网 络 安全 软件 编程 中 需要 使 用 的 基本 工具 。 

(3) 网 络 安全 技术 发 展 中 的 热点 问题 与 解决 思路 。 


1.6.3 网 络 安全 软件 编程 训练 课题 编程 环境 的 选择 


完成 网 络 安全 训练 课题 的 操作 系统 选用 Linux, 目 的 是 希望 充分 利用 Linux 开源 软件 
的 优势 ,通过 在 Linux 环境 中 完成 网 络 安 全 软件 的 设计 与 编程 训练 ,增强 读者 研发 具有 自主 
知识 产权 的 技术 与 产品 的 能 力 。 完 成 本 书 的 训练 课题 不 需要 限定 任何 特殊 的 硬件 环境 和 编 
程 语言 。 

Linux 作为 应 用 最 广泛 的 开源 操作 系统 之 一 ,不 仅 能 够 提供 终端 主机 所 需要 的 各 种 网 
络 协 议 软 件 ,而 且 还 能 够 实现 网 桥 、 路 由 器 等 网 络 设备 的 基本 功能 。 
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为 了 帮助 读者 尽快 掌握 Linux 环境 中 网 络 安全 软件 设计 与 编程 方法 ,本 书 的 第 2 章 从 
两 个 方面 对 Linux 网 络 协议 栈 进行 讨论 : 

(1) 结合 Linux 网 络 协 议 栈 的 设计 特点 ,介绍 了 网 络 协 议 栈 源码 所 包含 的 几 个 主要 功 
能 模块 ,其 中 包括 : 路 由 子 系统 、 组 播 模 块 .IPv6 模块 \ 包 过 滤 和 防火 墙 模块 .邻居 子 系统 、 网 
桥 模块 流量 控制 管理 .原始 套 接 字 和 PACKET 协议 族 等 。 

(2) 讨论 了 Linux 网 络 协议 栈 源码 发 送 和 接收 TCP 报 文 的 基本 流程 。 

有 兴趣 的 读者 可 以 在 此 基础 上 ,通过 进一步 阅读 Linux 网 络 协议 栈 的 源码 ,学 习 其 他 的 
功能 模块 。 


1.6.4 网 络 安全 软件 编程 训练 选 题 指导 


训练 选 题 的 建议 考虑 到 不 同 基础 的 读者 选择 课题 时 涵盖 的 知识 点 内 容 , 包 括 网 络 训练 
涉及 的 层次 .课题 类 型 编程 的 难度 等 因素 。 作 为 教材 使 用 时 ,任课 教师 可 以 结合 教学 内 容 
的 需要 和 学 时 灵活 地 指导 选择 训练 课题 。 自 学 的 读者 可 以 根据 自己 的 基础 和 兴趣 ,结合 训 
练 选 题 的 建议 考虑 在 不 同 的 阶段 ,选择 不 同 的 课题 ,循序 渐进 地 组 织 学 习 , 逐 步 提 高 网 络 软 
件 的 编程 能 力 。 

从 研究 生 和 高 级 人 才 培 养 的 角度 ,应 该 强调 “研究 型 与 “自主 型 "的 学 习 方 式 。 对 于 研 
究 生 教学 过 程 来 说 ,学 生 应 该 变 被 动 的 “听课 ,做 笔记 ”转向 主动 .研究 地 学 习 和 提高 。 从 任 
课 教 师 与 导师 的 角度 应 该 强调 “因材施教 ”。 不 同 基础 和 不 同 需求 的 读者 可 以 根据 个 人 的 基 
fili ,学习 与 工作 的 需要 ,选读 其 中 的 某 些 章节 ,完成 其 中 部 分 课题 的 编程 任务 。 

研究 生 教材 不 应 该 只 是 一 本 一 学 期 使 用 的 教科 书 ,更 应 该 是 一 本 技术 参考 书 , 甚 至 是 一 
本 手册 。 导 师 可 以 根据 需要 选择 教材 中 的 部 分 内 容 , 作 为 基本 的 学 习 要 求 。 学 生 学 习 的 过 
程 应 该 在 导师 的 指导 下 有 选择 地 自学 和 阅读 ,完成 编程 训练 。 有 些 内 容 可 能 第 一 次 仅仅 是 
读 过 和 了 解 ,如 果 在 今后 的 科研 ` 开 发 工作 需要 ,可 以 再 回 过 头 来 继续 阅读 和 参考 。 

作为 研究 生 与 网 络 安全 高 级 人 才能 力 培养 的 教材 ,希望 读者 能 够 在 阅读 书 中 相关 音节 
之 后 ,独立 地 完成 课题 的 编程 任务 。 从 严格 训练 的 角度 出 发 , 书 中 只 提供 了 解决 问题 的 思 
路 ,给 出 了 启发 读者 的 编程 示例 ,书后 所 附 的 光盘 中 给 出 了 编程 所 需要 的 编程 工具 与 测试 数 
据 集 ,希望 读者 通过 阅读 相关 的 章节 ,结合 自己 已 经 掌握 的 网 络 知识 与 基本 编程 方法 ,独立 
地 完成 训练 课题 的 要 求 , 通 过 下 苦 功 夫 、 扎 扎实 实地 训练 ,深入 理解 理论 知识 ,提高 实践 能 
力 ,使 研究 生 与 从 事 网 络 安全 工作 的 工程 技术 人 员 在 学 习 过 程 中 体会 到 “研究 型 "与 “自主 
型 "学习 的 快乐 。 
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Linux 网 络 协议 栈 简介 


Linux 作为 应 用 最 广泛 的 开源 操作 系统 之 一 ,不 仅 能 够 提供 终端 主机 所 需要 的 各 种 网 
络 协 议 软 件 ,而 且 还 能 够 实现 网 桥 、 路 由 器 等 网 络 设备 的 基本 功能 。 为 了 达到 培养 读者 研发 
具有 自主 知识 产权 网 络 安全 软件 产品 的 目的 ,本 书 要 求 所 有 的 编程 训练 在 Linux 操作 系统 
的 基础 上 进行 。 本 章 将 从 两 个 方面 对 Linux 网 络 协议 栈 进行 讨论 : 一 是 结合 Linux 网 络 协 
议 栈 的 设计 特点 ,介绍 网 络 协议 栈 源码 包含 的 几 个 主要 功能 模块 ;二 是 讨论 Linux 网 络 协议 
栈 源码 发 送 和 接收 TCP 报 文 的 基本 流程 。 有 兴趣 的 读者 可 以 在 此 基础 上 ,进一步 阅读 
Linux 网 络 协议 栈 的 源码 来 学 习 其 他 的 功能 模块 。 


2.1 Linux 网 络 协议 栈 概述 


Linux 网 络 协议 栈 源码 是 Linux 内 核 源码 的 重要 组 成 部 分 , 它 不 仅 支 持 TCP/IP 协议 ， 
还 支持 Ethernet 透明 网 桥 协议 ,提供 IP 防火 增 \IP 服务 质量 (QoS) 管 理 及 其 他 的 安全 特 
性 。 配 置 好 的 Linux 系统 所 能 提供 的 这 些 功能 可 以 与 目前 使 用 的 中 档 路 由 器 、 网 桥 等 网 络 
设备 相 媲 美 。Linux 系统 还 支持 多 种 不 同 的 网 络 协议 ,如 ATM、 蓝 牙 协议 等 。 本 章 将 重点 
讨论 基于 Ethernet 的 TCP/IP 协议 的 设计 和 实现 技术 。 


2.1.1 Linux 网 络 协议 栈 的 设计 特点 
Linux 网 络 协议 栈 在 设计 和 实现 思路 上 体现 了 以 下 3 个 重要 特点 : 
1. 层次 化 


网 络 系统 在 设计 上 采用 了 层次 化 的 体系 结构 。 这 种 层次 结构 为 网 络 协议 的 设计 与 实现 
提供 了 很 大 方便 ,上 层 协议 可 以 通过 相 邻 层 之 间 预 先 定义 的 服务 接口 直接 使 用 下 层 协议 提 
供 的 功能 ,从 而 保证 任何 一 层 协议 实现 技术 的 改变 不 会 影响 整个 网 络 系统 的 正常 运行 。 由 
于 操作 系统 不 仅 要 考虑 网 络 子 系统 如 何 与 其 他 子 系统 (如 文件 子 系统 和 调度 子 系统 ) 协 调 工 
TE ,还 要 支持 各 种 不 同 的 网 络 设备 ,让 系统 中 的 各 个 部 分 协调 工作 ,所 以 必须 采用 层次 化 的 
设计 方法 。Linux 网 络 协议 栈 的 层次 结构 如 图 2-1 所 示 。 

(1) 网 络 编程 接口 层 

位 于 层次 结构 最 高 层 的 是 网 络 编程 接口 层 , 它 主要 提供 符合 BSD socket API 规范 的 接 
口 函数 ,这 部 分 就 是 编写 网 络 应 用 程序 时 经 常 采 用 的 socket 函数 ,例如 socket, bind, accept 
等 ,它们 是 应 用 程序 使 用 网 络 服务 的 主要 途径 。 
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通用 网 络 接口 层 其 他 子 系统 


网 络 协议 实现 层 


虚拟 设备 接口 层 


2-1 Linux 网 络 协议 栈 的 层次 结构 示意 图 


(2) 系统 调用 接口 层 

在 网 络 编程 接口 层 之 下 的 是 系统 调用 接口 层 , 它 可 以 实现 通过 虚拟 文件 系统 的 接口 访 
问 网 络 的 功能 ,如 在 报 文 发 送 和 接收 流程 中 使 用 的 read 和 write 函数 。 

(3) 硬件 设备 层 

位 于 层次 结构 最 底层 的 是 由 各 种 具体 硬件 设备 组 成 的 硬件 设备 层 ,各 种 设备 通过 硬件 
厂商 自己 提供 的 驱动 程序 来 完成 工作 。 

(4) 虚拟 网 络 设备 层 

位 于 硬件 设备 层 之 上 的 是 虚拟 网 络 设备 层 ,Linux 中 采用 net. device 结构 来 抽象 地 表 
示 系 统 中 的 每 一 个 网 络 硬件 设备 。struct net device 中 定义 了 所 有 网 络 设备 都 必须 保存 的 
信息 和 必须 支持 的 操作 。 虚 拟 网 络 设备 层 还 可 以 看 做 是 一 个 适 配 层 , 其 作用 类 似 于 面向 对 
象 设计 中 的 接口 , 它 可 以 屏蔽 底层 各 种 硬件 本 身 的 差异 ,使 得 上 层 可 以 通过 一 个 统一 的 接口 
来 操作 各 种 网 络 设备 ,完成 报 文 接收 与 发 送 任务 。 

(5) 网 络 协议 实现 层 

虚拟 网 络 设备 层 之 上 是 网 络 协议 实现 层 , 其 中 实现 各 种 网 络 协议 ,如 TCP.IP.ARP 协 
议 等 。 

(6) 通用 网 络 接口 层 

Linux 网 络 协议 栈 在 网 络 协议 实现 层 之 上 增加 了 一 个 通用 网 络 接口 层 。 设 置 通用 网 络 
接口 层 的 目的 与 虚拟 网 络 设备 层 十 分 类 似 , 它 为 各 种 网 络 协议 提供 了 一 个 服务 接口 。 这 样 
系统 中 的 其 他 子 系统 就 可 以 直接 使 用 网 络 服务 ,而 无 需 依 赖 特定 的 协议 或 硬件 。 


2. 模块 化 


一 方面 ,层次 化 设计 本 身 就 要 求 把 每 一 层 作为 一 个 独立 的 模块 来 实现 ; 另 一 方面 ,由 于 
Linux 网 络 协议 栈 支 持 的 网 络 协议 和 实现 的 网 络 功 能 比较 多 ,所 以 通常 情况 下 这 些 功 能 或 
协议 不 会 同时 被 使 用 ,这 就 要 求 网 络 协议 栈 能 够 根据 实际 情况 ,采取 ”* 按 需 加 载 ” 的 方法 , 选 
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择 所 要 求 的 功能 与 协议 。 通 过 采用 模块 化 的 实现 方式 ,不 仅 能 够 提高 系统 的 工作 效率 ,而 且 
便于 以 后 增加 新 的 功能 或 协议 。 图 2-2 给 出 了 Linux 中 TCP/IP 协议 栈 中 的 各 个 主要 功能 


模块 之 间 的 关系 示意 图 。 
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图 2-2 Linux 中 TCP/IP 协议 栈 的 主要 功能 模块 关系 示意 图 


每 个 模块 的 设计 目标 都 很 明确 ,一 个 模块 只 用 来 完成 一 项 任务 ,如 IPv4 模块 只 完成 
IPv4 分 组 的 接收 ,发 送 、 合 法 性 判断 ,分 片 重组 等 任务 ,而 路 由 选择 功能 则 交 给 IP 路 由 模块 
来 完成 。 为 降低 模块 之 间 的 看 合 度 , 减 小 相互 之 间 的 影响 .模块 与 模块 之 间 的 界面 多 采用 函 
数 指针 作为 接口 。 这 样 , 当 一 个 模块 的 实现 方式 发 生变 化 时 ,不 会 影响 另 一 个 模块 的 正常 
工作 。 


3. 面向 对 象 的 设计 


Linux 内 核 里 很 多 子 系统 都 采用 了 面向 对 象 的 设计 方法 ,最 典型 的 例子 就 是 虚拟 文件 
系统 (virtual file system. VFS). Linux 内 核 支 持 很 多 种 文件 系统 ,比如 VFAT、EXT2、JFS 
AE. 但 是 在 内 核 里 面 ,采用 一 个 抽象 的 基 类 VFS 来 表示 所 有 的 文件 系统 ,并 且 定 义 了 文件 
系统 的 操作 界面 (接口 函数 ) ,然后 每 一 种 文件 系统 再 根据 VFS 进行 实例 化 。 

网 络 协议 栈 部 分 也 有 多 处 采用 了 面向 对 象 的 设计 方法 ,典型 的 例子 有 以 下 两 个 : 
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(1) 邻居 表 

ARP 协议 是 获取 网 络 结 点 IP 地 址 与 MAC 地 址 映射 关系 的 协议 。 但 在 其 他 协议 族 
(如 ATM、X25) 中 还 存在 另外 几 种 不 同 的 地 址 映射 关系 。Linux 网 络 协议 栈 对 此 进行 了 适 
当 的 抽象 ,采用 “邻居 ”的 概念 来 管理 相 邻 的 计算 机 ,这 样 不 同 协议 族 都 采用 相同 的 接口 来 管 
理 邻 居 。 

(2) socket 接口 

由 于 Linux 网 络 协议 栈 支 持 20 多 种 协议 ,因此 它 在 内 核 中 采取 向 用 户 层 提供 一 个 统一 
的 BSD socket 接口 的 方法 。 这 样 做 的 最 大 优点 是 允许 应 用 程序 在 利用 不 同 的 网 络 协议 通 
信 时 ,能够 采用 相同 的 函数 完成 数据 的 发 送 与 接收 。 

采用 面向 对 象 设计 方法 的 主要 目的 是 能 够 获得 多 态 特性 。 这 种 设计 在 实现 上 采用 函 
数 指针 ,同样 一 个 调用 形式 ,被 执行 时 会 根据 指针 赋值 情况 的 不 同 而 调用 不 同 的 函数 ,从 
而 表现 出 不 同 的 行为 。 当 需要 支持 新 的 协议 时 ,只 需要 提供 实现 了 所 需 功 能 的 处 理 函 
数 ,然后 让 函数 指针 指向 新 协议 的 处 理 函 数 即 可 ,这 样 便 可 以 在 不 需要 修改 调用 函数 代 
码 的 情况 下 ,动态 增加 对 新 协议 的 支持 。 这 种 设计 方式 极 大 地 提高 了 代码 的 可 扩展 性 和 
灵活 性 。 

需要 注意 的 是 : 灵活 性 与 复杂 性 总 是 相伴 而 生 的 。 采 用 函数 指针 作为 函数 调用 的 形式 
之 后 ,会 给 阅读 源 代码 ,追踪 和 分 析 程 序 的 处 理 流程 带 来 很 大 困难 , 即 无 法 从 调用 语句 本 身 
确定 被 调用 的 函数 。 因 此 ,在 本 章 分 析 报 文 发 送 和 接收 流程 时 ,会 特别 强调 代码 执行 过 程 中 
对 函数 指针 的 处 理 情况 。 


2.1.2 Linux 网 络 协 议 栈 代码 中 使 用 的 固定 实现 模式 


除了 上 面 介绍 的 3 个 设计 特点 之 外 ,Linux 网 络 协议 栈 的 代码 中 还 使 用 了 很 多 固定 的 
实现 模式 ,下 面 将 要 介绍 几 个 与 本 章 内 容 相关 的 模式 。 


1. 缓存 


网 络 协议 栈 为 了 提高 处 理 效率 而 使 用 缓存 ,具体 的 实例 包括 保存 路 由 结果 的 struct 
rtable 结构 和 ARP 缓存 等 。 通 常 使 用 哈 希 表 来 实现 缓存 ,内 核 中 提供 了 用 于 实现 哈 希 表 的 
基本 数据 结构 : 数组 . 单 向 和 双向 链表 。 具 体 的 哈 希 函数 要 根据 缓存 对 象 的 特征 来 进行 选 
择 , 有 些 情况 下 会 在 键 值 中 加 入 一 些 随机 特征 来 防止 针对 哈 希 表 的 拒绝 服务 (Denial of 
Service，DoS) 攻 击 。 


2. 引用 计数 


内 核 中 的 很 多 数据 结构 都 可 能 被 不 同 CPU 上 的 不 同 进程 所 共享 ,这 里 就 涉及 如 何 进 
行 垃圾 收集 的 问题 , 即 只 有 不 被 任何 进程 使 用 的 数据 结构 才能 被 释放 ,否则 就 会 引起 空 指针 
等 严重 的 问题 。 因 此 网 络 协议 栈 中 的 很 多 数据 结构 都 使 用 了 一 个 引用 计数 字段 。 使 用 该 结 
构 的 用 户 在 使 用 之 前 增加 引用 计数 的 值 , 在 使 用 之 后 再 减少 计数 值 。 当 引用 计数 值 减 少 到 
0 时 ,就 表明 这 块 数据 已 经 不 再 有 用 户 使 用 ,应 该 释放 其 占用 的 内 存 。 在 Linux 内 核 源 代码 
中 包含 引用 计数 字段 的 数据 结构 往往 会 同时 提供 两 个 专门 的 函数 来 增加 和 减少 计数 值 ,这 
类 函数 的 名 称 通常 为 : xxx_hold 和 xxx_release( 或 xxx_put, 例 如 net device 结构 提供 的 
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dev put 函数 ) 。 如 果 在 释放 数据 结构 时 忘记 调用 xxx release 函数 减少 计数 值 , 则 可 能 造 
成 数据 永远 得 不 到 释放 ,导致 内 存 泄露 ;如 果 在 使 用 数据 结构 时 忘记 调用 xxx hold 函数 来 
增加 计数 值 , 则 可 能 导致 当前 使 用 的 数据 被 提前 释放 ,造成 空 指针 间 题 。 特 别 需 要 指出 的 
是 ,在 使 用 哈 希 表 或 链表 提供 的 查询 函数 获取 其 中 元 素 时 ,查询 函数 往往 会 自动 增加 该 元 素 
的 计数 值 ,所 以 在 使 用 完 之 后 不 能 忘记 手工 减少 计数 值 。 


3. 函数 指针 


通过 在 结构 体 中 定义 函数 指针 成 员 ,C 语言 也 可 以 编写 出 具有 面向 对 象 特 性 的 程序 。 
使 用 函数 指针 的 最 大 优点 是 可 以 根据 情况 将 指针 初始 化 为 不 同 的 函数 ,从 而 做 到 同一 种 静 
态 调 用 形式 具有 不 同 动态 行为 的 能 力 , 即 多 态 性 。 在 Linux 网 络 协议 栈 中 使 用 函数 指针 的 
情况 主要 有 3 种 。 第 一 ,作为 层 与 层 之 间 的 接口 实现 一 对 多 的 映射 关系 ,如 BSD socket 层 
和 具体 协议 族 的 socket 实现 之 间 就 借助 于 一 组 函数 指针 (定义 在 proto. ops 结构 中 ) ,获得 
接口 和 多 态 的 特性 ;第 二 ,根据 状态 或 其 他 模块 的 处 理 结果 来 选择 具体 的 处 理 函 数 ,如 ARP 
模块 的 发 送 函 数 指针 output 会 根据 ARP 缓存 的 状态 来 决定 采用 哪 一 种 发 送 函 数 ;第 三 , 实 
现 一 些 自 定义 的 处 理 , 例 如 在 net. device 中 定义 的 函数 指针 init 就 可 以 执行 设备 提供 的 自 
定义 初始 化 函数 来 完成 特殊 处 理 , 无 需 特殊 处 理 时 函数 指针 为 空 , 这 种 使 用 方法 通常 以 下 面 
代码 的 形式 出 现 : 


if (dev-» init && dev- > init (dev) !- 0) ( 


) 


函数 指针 的 最 大 缺点 是 会 给 阅读 源 代码 带 来 困难 。 当 在 某 条 代码 执行 路 径 上 遇 到 函数 
指针 时 ,必须 首先 找 出 对 该 指针 的 初始 化 情况 。 常 见 的 初始 化 条 件 包 括 某 些 报 文 首部 字段 
或 状态 ,例如 ,在 将 报 文 投递 给 上 层 处 理 函 数 时 ,会 根据 报头 中 上 层 协 议 字 有 段 的 值 来 初始 化 
函数 指针 ;在 ARP 模块 中 则 会 根据 缓存 状态 让 函数 指针 指向 合适 的 处 理 函数 。 


2.1.3 TCP/IP 协议 栈 中 主要 模块 简介 


从 图 2-2 中 可 以 看 出 ,网 络 协议 栈 的 所 有 功能 模块 都 在 内 核 态 中 完成 ,这 些 内 核 模块 相 
互 协作 实现 了 多 种 多 样 的 网 络 功能 。 

这 些 网 络 功 能 通过 BSD socket 接口 和 虚拟 文件 系统 的 接口 (主要 针对 socket 的 读 写 操 
作 ) 提 供给 用 户 态 的 程序 使 用 ,这 一 部 分 就 是 大 家 熟悉 的 socket 编程 函数 。 在 使 用 socket 
进行 网 络 编程 时 ,必须 要 指明 所 使 用 的 网 络 协议 族 才 能 创建 socket, 图 2-2 中 给 出 了 两 种 具 
体 的 协议 族 : PF INET 和 PF_PACKET。PF_INET 表示 Internet. 上 使 用 的 是 TCP/IP H 
议 族 , 该 协议 族 提供 3 种 服务 类 型 , 即 SOCK STREAM.SOCK_DGRAM 和 SOCK_RAW。 
前 两 者 分 别 对 应 着 TCP 和 UDP 协议 ,而 SOCK_RAW 类 型 的 socket 则 会 直接 将 用 户 提供 
的 数据 交 给 IP 协议 进行 封包 ,即位 于 IP 层 之 上 的 各 层 报头 都 必须 由 用 户 自行 构造 。TCP 
和 UDP 协议 是 PF_INET 协议 族 中 两 种 主要 的 传输 层 协 议 ,在 内 核 中 分 别 由 两 个 独立 的 模 
块 来 实现 报头 的 构造 以 及 发 送 和 接收 流程 的 处 理 。 

下 面 按照 从 上 层 到 下 层 的 顺序 来 对 网 络 协 议 栈 的 各 个 子 模块 进行 介绍 。 
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1. 路 由 子 系统 


路 由 是 IP 层 的 主要 任务 之 一 ,也 是 IP 层 最 复杂 的 模块 。 当 主机 向 外 发 送 IP 分 组 时 ， 
要 根据 IP 分 组 的 目的 地 址 查询 它 的 路 由 。Linux 网 络 协议 栈 将 与 IP 路 由 有 关 的 信息 集中 
存放 在 转发 信息 块 (Forwarding Information Block, FIB) rp ,转发 路 由 信息 库 包 括 路 由 规则 
(Routing Rules) 和 路 由 表 (Routing Tables) 两 个 部 分 。 路 由 规则 用 来 实现 基于 规则 的 路 
由 ,又 称 为 策略 路 由 , 即 对 满足 某 些 条 件 的 报 文 ,应 用 特定 的 路 由 表 来 决定 路 由 信息 。 系 统 
中 最 多 可 以 定义 255 张 路 由 表 , 在 不 启用 策略 路 由 的 情况 下 只 使 用 其 中 两 张 : 主 路 由 表 
(main_table) 用 于 描述 主机 间 路 由 规则 ;局 部 路 由 表 (local_table) 只 用 于 记录 本 地 地 址 信 
息 。 如 果 分 组 的 路 由 决策 来 自 局 部 路 由 表 , 则 说 明 这 是 发 给 本 机 的 分 组 。 通 过 这 样 一 个 特 
殊 的 路 由 表 , 路 由 子 系统 能 够 以 统一 的 方式 来 处 理 所 有 TP 分 组 。 

路 由 表 本 身 不 是 一 个 单一 的 结构 ,而 是 由 多 个 结构 组 合 而 成 ,并 且 采 用 层次 结构 来 组 织 
和 管理 这 些 实现 路 由 表 的 结构 。 这 些 数据 结构 之 间 的 关系 如 图 2-3 所 示 。Linux 网 络 协议 
栈 用 struct fib. table 结构 来 表示 一 张 路 由 表 。 对 每 一 张 路 由 表 来 说 ,首先 根据 子 网 掩 码 
Cnetmask) 的 长 度 (0 一 32) 将 所 有 目的 网 络 分 成 33 个 组 ,每 个 组 用 struct fn. zone 来 表示 ,然后 
在 同一 子 网 掩 码 (同一 组 ) 中 ,再 根据 子 网 的 不 同 ( 如 192. 168. 1. 0/24 和 192. 168. 2. 0/24) , 8 
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2-3 实现 耳 路 由 表 的 数据 结构 示意 图 
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分 为 第 2 层 , 用 struct fib node 结构 来 表示 ,对 于 同一 个 目的 子 网 ,可 能 由 于 TOS 等 属性 的 
不 同 而 使 用 不 同 的 路 由 ,这 就 是 路 由 表 中 的 第 3 层 , 用 struct fib_alias 来 表示 。 第 3 层 结构 
表示 一 个 路 由 表 项 (routing entry) ,而 每 个 路 由 表 项 都 要 包含 其 他 一 些 参 数 ,例如 协议 类 
型 .下 一 跳 地 址 等 ,这 些 信息 保存 在 struct fib info 结构 中 。 其 中 最 重要 的 下 一 跳 信息 由 
struct fib nh 结构 来 表示 (nh 表示 next hop) , 它 总 是 附属 在 对 应 的 fib. info 结构 之 后 。 同 
一 个 目的 网 络 可 能 有 多 个 下 一 跳 地 址 , 即 多 路 径路 由 (multipath routing), 因 此 一 个 fib_ 
info 结构 中 可 能 对 应 多 个 fib_nh 结构 。 分 层 结构 的 优点 显而易见 , 它 使 路 由 表 的 实现 更 加 
灵活 高 效 ,逻辑 上 也 更 加 清晰 ,并 且 可 以 方便 地 共享 路 由 信息 (如 struct fib_info) ,从 而 减少 
了 数据 的 宛 余 。 

路 由 子 系统 对 外 提供 服务 的 接口 是 fib lookup 函数 , 它 会 根据 是 否 启用 策略 路 由 等 条 
JF ,找到 合适 的 路 由 表 , 然 后 通过 fib table 结构 中 的 函数 指针 tb. lookup 调用 fn. hash | 
lookup 函数 来 查找 需要 的 路 由 表 项 。 

由 于 FIB 表 的 结构 比较 复杂 ,通过 它 查找 路 由 是 一 个 比较 “缓慢 ”的 过 程 ,所 以 Linux 
网 络 协议 栈 中 还 实现 了 路 由 缓存 模块 ,将 经 常 使 用 的 FIB 信息 缓存 起 来 ,以 达到 加 快 路 由 
查找 速度 的 目的 。 为 了 实现 路 由 缓存 ,Linux 在 include/net/dst. h 中 定义 了 struct dst_ 
entry 结构 , 它 表 示 一 个 与 具体 协议 无 关 的 路 由 缓存 。 对 于 IP 协议 来 说 则 在 include/net/ 
route, h 中 定义 了 struct rtable 结构 来 表示 IP 路 由 缓存 。rtable 结构 的 开头 部 分 定义 如 下 : 

union ( 

struct dst entry dst; 
struct rtable* rt next; 

ju 

一 方面 ,联合 体 u 要 么 表示 dst. entry 结构 ,要 么 指向 另 一 个 rtable 结构 。 另 一 方面 ， 
dst_entry 结构 的 第 一 项 是 指向 另 一 个 dst. entry 结构 的 next 指针 ,而 且 Linux 网 络 协议 栈 
不 会 直接 创建 dst entry 结构 ,而 是 通过 创建 rtable 结构 ,间接 生成 dst. entry 结构 ,所 以 指 
向 rtable 和 dst. entry 结构 的 指针 可 以 自由 进行 类 型 转换 。 

分 组 的 发 送 过 程 中 需要 通过 路 由 子 系统 来 确定 下 一 跳 的 地 址 ,在 内 核 中 完成 这 一 功能 
的 是 ip route output. flow 函数 , 它 会 选择 或 创建 对 应 的 rtable 结构 来 作为 路 由 的 结果 。 
在 分 组 接收 过 程 中 同样 需要 使 用 路 由 子 系统 确定 是 接收 还 是 转发 分 组 ,这 一 步 由 ip_route_ 
input 函数 来 完成 ,网 络 协议 栈 会 根据 路 由 的 结果 决定 下 一 步调 用 的 处 理 函 数 。 


2. 组 播 模 块 


Internet. 上 的 大 多 数 网 络 应 用 都 属于 单 播 通信 ,即将 分 组 从 一 台 主 机 发 送 到 另 一 台 主 
机 。 但 有 些 应 用 (如 视频 会 议 ) 要 求 同 时 有 多 个 发 送 主 机 和 多 个 接收 主机 ,这 样 的 通信 方式 
称 为 组 播 (或 多 播 )。 上 一 小 节 介 绍 的 IP 路 由 子 系统 主要 是 针对 单 播 模式 ,但 Linux 网 络 协 
议 栈 同样 也 支持 组 播 模 式 。 要 实现 组 播 通信 ,网 络 协议 栈 必须 实现 两 种 功能 : 管理 组 播 通 
信 的 成 员 、 高 效 地 把 数据 分 发 给 组 播 成 员 。 

对 于 第 一 种 功能 ,Linux 协议 栈 实现 了 标准 的 IGMP 协议 ,具体 的 代码 在 net/ipv4/ 
igmp.c 中 。IGMP 协议 数据 必须 作为 IP 分 组 的 负载 ,在 IP 报头 中 会 指明 负载 类 型 ,进而 调 
用 接收 IGMP 报 文 的 处 理 函 数 igmp_rcv。 
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对 于 第 二 种 功能 ,通常 在 组 成 员 之 间 建 立 一 棵 组 播 树 ,发送 主机 作为 树 的 根 节点 ,把 分 
组 发 送 给 作为 树 的 叶子 节点 的 接收 主机 ,这 个 过 程 称 为 组 播 路 由 算法 。 树 的 中 间 节 点 只 负 
责 转发 而 不 需要 接收 组 播 分 组 ,因此 网 络 协议 栈 也 必须 区 分 接收 和 转发 的 情况 。 目 前 常用 
的 组 播 路 由 算法 包括 DVMRP,MOSPF 等 。 组 播 路 由 算法 大 多 以 守护 程序 的 形式 在 用 户 
空间 实现 。 但 转发 和 接收 组 播报 文 的 处 理 必须 在 内 核 协议 栈 中 完成 ,这 部 分 代码 在 net/ 
ipv4/ipmr. c 中 ,主要 的 处 理 函 数 是 ip. mr. input,ip mr. forward 和 ipmr_queue_xmit。 


3. IPv6 模块 


IPv6 将 地 址 长 度 从 32bit 扩展 为 128bit, 同 时 其 在 报头 格式 、 报 头 扩展 选项 等 方面 与 
IPv4 存在 差异 。Linux 网 络 协议 栈 中 实现 IPv6 的 代码 保存 在 net/ipv6 目录 下 及 头 文件 
include/net/ipv6. h 中 。IPv6 协议 的 代码 以 IPv4 的 实现 为 基础 , 尽 可 能 复 用 一 些 与 具体 IP 
协议 版 本 无 关 的 处 理 代码 。 

分 组 要 进入 IPv6 模块 只 有 以 下 3 种 途径 : 

(1) 在 处 理 数 据 链 路 层 报头 时 发 现 网 络 层 使 用 IPv6 协议 ,调用 函数 ipv6_rcv 来 接收 并 
继续 处 理 该 报 文 ; 

(2) 当 上 层 协 议 ( 如 TCP 或 UDP) 发 送 报 文 时 ,调用 IPv6 的 发 送 函 数 ip6_xmit; 

(3) 通过 IPv6 来 发 送 ICMP 报 文 时 调用 icmpv6_send 函数 。 

IPv6 同样 也 需要 完成 转发 报 文 的 工作 ,这 是 由 ip6_forward 函数 完成 的 。 另 外 在 net/ 
ipv6/ip6 fib. c 中 实现 了 针对 IPv6 地 址 的 路 由 表 管理 ,在 net/ipv6/tcp_ipv6. c 中 实现 了 在 
IPv6 条 件 下 TCP 协议 必须 进行 的 修改 。 


4. 报 文 过 滤 和 防火 墙 模块 


Linux 使 用 Netfilter 框架 来 实现 防火 墙 的 功能 。 从 Linux2. 4 内 核 开始 ,内 核 设计 者 在 
网 络 协议 栈 中 预 留 出 若干 函数 接口 ,开发 人 员 可 以 通过 这 些 接口 实现 报 文 过 滤 、 报 文 处 理 、 
NAT 等 功能 ,这 套 函 数 接口 构成 了 Netfilter 框架 。Netfilter 框架 包含 以 下 3 个 部 分 ， 

CD 为 每 种 网 络 协 议 (IPv4、IPv6 等 ) 定 义 一 套 钧 子 函数 (IPv4 定义 了 5 fJ f RO. 
这 些 钧 子 函数 在 报 文 流 过 协议 栈 的 几 个 关键 点 时 被 调用 。 在 这 几 个 钧 子 函数 点 上 ,协议 栈 
将 把 报 文 及 钩子 函数 标号 作为 参数 传递 给 Netfilter 框架 。 

(2) 内 核 中 的 任何 模块 都 可 以 在 每 种 协议 的 一 个 或 多 个 钩子 点 上 进行 注册 ,实现 挂 接 。 
这 样 当 某 个 报 文 经 过 Netfilter 框架 设 定 的 检查 点 时 ,内 核 就 会 检测 是 否 存在 某 些 模块 对 该 
协议 和 钩子 函数 进行 了 注册 。 若 存在 , 则 调用 该 模块 在 注册 时 提供 的 回调 函数 。 通 过 这 些 
回调 函数 ,其 他 模块 就 有 机 会 检查 (可 能 还 会 修改 ) 报 文 . 丢 弃 该 报 文 或 者 将 该 报 文 传人 用 户 
空间 的 队列 等 待 进一步 处 理 。 

(3) 用 户 进程 可 以 采用 异步 方式 处 理 传 递 到 用 户 空间 的 报 文 。 当 用 户 态 所 需 操作 完成 
之 后 ,还 可 以 重新 将 该 报 文 注入 到 内 核 中 对 应 的 钧 子 函数 点 上 ,继续 进行 网 络 协议 栈 的 处 理 
流程 。 

Linux 中 所 有 报 文 过 滤 和 NAT 等 功能 都 基于 该 框架 。 目 前 Netfilter 框架 已 在 IPv4 
和 IPv6 协议 栈 中 实现 了 。 

图 2-4 显示 了 Netfilter 框架 中 钧 子 函 数 在 协议 栈 中 的 位 置 .从 图 中 可 以 看 到 IPv4 共有 


sib 


网 络 安全 高 级 软件 编程 技术 


5 个 钩子 函数 点 。 主 机 接收 到 的 报 文 在 进行 IP 校 验 后 ,会 经 过 第 一 个 钩子 函数 点 NF_IP_ 
PRE ROUTING 进行 处 理 ; 然 后 进入 路 由 代码 ,决定 该 报 文 是 需要 转发 还 是 由 本 机 接收 ; 
若 该 报 文 是 发 给 本 机 的 ,在 经 过 钩子 函数 点 NF IP LOCAL IN 上 的 处 理 之 后 ,会 传递 给 上 
层 协议 ; 若 需 要 转发 该 报 文 , 则 会 进行 NF_IP_FORWARD 点 上 定义 的 处 理 ; 转 发 的 报 文通 
过 最 后 一 个 钧 子 函 数 点 NF_IP_POST_ROUTING 上 的 处 理 以 后 ,才能 传输 到 网 络 上 。 本 
地 产生 的 报 文 经 过 钩子 函数 NF. IP. LOCAL. OUT 处 理 后 ,进行 路 由 选择 处 理 , 然 后 经 过 
NF_IP_POST_ROUTING 处 理 再 发 送 到 网 络 上 。 


NF_IP_LOCAL_IN NF IP LOCAL OUT 
NF IP PRE | NF IP POST | 。 
ROUTING «fovit» NPP FORWARD. ROUTING 


图 2-4 Netfilter 框架 中 钩子 函数 的 位 置 示意 图 


Iptables 是 一 个 基于 Netfilter 框架 的 报 文 过 滤 和 修改 工具 。Iptables 模块 可 以 创建 规 
则 表 (table) ,并 要 求 报 文 流 经 指定 的 规则 表 。 在 Iptables 中 ,预先 定义 了 3 张 规则 表 , 分 别 
实现 3 种 不 同 的 概念 : 报 文 过 滤 (filter K) 、 网 络 地 址 转换 (nat 表 ) 及 报 文 处 理 (mangle 表 ) 。 

(1) 报 文 过 滤 (packet filtering) 

filter 表 不 会 对 报 文 进行 修改 ,而 只 对 报 文 进行 过 滤 。 它 是 通过 钓 子 函数 点 NF_IP_ 
LOCAL IN,NF IP FORWARD X NF IP LOCAL OUT 接 入 Netfilter 框架 的 。 因 此 对 
于 任何 一 个 报 文 都 有 且 仅 有 一 个 地 方 对 其 进行 过 滤 。 

(2) 网 络 地 址 转换 (NAT) 

nat 表 在 3 个 Netfilter 钩子 函数 点 上 进行 回调 函数 的 注册 : NF_IP_PRE_ROUTING、 
NF IP POST ROUTING 及 NF_IP_LOCAL_OUT, NF_IP_PRE_ ROUTING 实现 对 需 
要 转发 的 报 文 的 源 地 址 进行 地 址 转换 ,而 NF_IP_POST_ROUTING 则 对 需要 转发 的 报 文 
的 目的 地 址 进行 地 址 转换 。 对 于 本 地 报 文 的 目的 地 址 的 转换 则 在 NF_IP_LOCAL_OUT 
点 上 实现 。nat 表格 不 同 于 filter 表格 ,因为 只 有 新 连接 的 第 一 个 报 文 会 遍历 表格 ,而 随后 
的 报 文 将 根据 第 一 个 报 文 的 结果 进行 同样 的 转换 处 理 。nat 表 可 以 实现 源 NAT、 目 的 
NAT 伪装 ( 源 NAT 的 一 个 特例 ) 及 透明 代理 (目的 NAT 的 一 个 特例 ) 。 

(3) JR XC Ab ill packet mangling) 

mangle 表 在 NF IP PRE ROUTING fil NF IP LOCAL OUT 钩子 中 进行 注册 。 使 
用 mangle 表 , 可 以 实现 对 报 文 的 修改 或 给 报 文 附加 一 些 带 外 数据 。 当 前 mangle 表 支 持 修 
Wk TOS( Type Of Service) 位 ,以 及 设置 sk_buff(Linux 内 核 中 表示 报 文 的 数据 结构 ) 的 
nfmark 字段 等 。 

每 一 张 规则 表 都 在 指定 的 Netfilter 钧 子 上 注册 了 若干 个 回调 函数 , 当 报 文 到 达 这 些 钓 
子 时 ,就 会 进入 相应 的 函数 进行 处 理 。 实 际 上 ,在 这 些 函 数 中 ,将 会 逐一 匹配 并 执行 若干 条 
由 管理 员 制 定 的 防火 墙 规则 (rule) ,这 些 规则 组 成 了 一 个 规则 链 。 因 此 ,整个 Iptables/ 
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Netfilter 系统 可 以 形象 的 看 成 : Netfilter 是 表 的 容器 , 表 是 链 的 容器 , 链 是 规则 的 容器 。 

每 一 条 规则 的 定义 形式 为 :“ 如 果 报 头 符合 某 个 条 件 , 就 按照 某 种 方法 处 理 这 个 报 文 ”。 
例如 “如 果 报 文 的 目的 地 址 是 192. 168. 1. 254, 就 丢弃 该 报 文 "。 当 一 个 报 文 到 达 一 个 规则 
链 时 ,系统 就 会 从 第 一 条 规则 开始 检查 报 文 是 否 符合 该 规则 所 定义 的 匹配 条 件 (match)。 
如 果 满 足 , 系 统 将 根据 该 条 规则 所 定义 的 目标 方法 (target) 处 理 该 报 文 ; 如 果 不 满足 则 继续 
检查 下 一 条 规则 。 最 后 ,如 果 该 报 文 不 符合 该 链 中 任何 一 条 规则 的 话 ,系统 就 会 根据 该 链 预 
先 定义 的 策略 (policy) 来 处 理 该 报 文 。 防 火 墙 的 用 户 / 管 理 员 可 以 使 用 Iptables 命令 及 其 选 
项 来 管理 防火 墙 ,设置 防火 墙 规则 。 

在 Linux 内 核 中 实现 Iptables/ Netfilter 框架 的 源 代码 保存 在 net\netfilter\ 和 net\ipv4\ 
netfilter\ 目 录 下 。 

Linux 网 络 协议 栈 中 实现 的 防火 墙 不 仅 可 以 实现 报 文 过滤 , 还 能 够 根据 连接 情况 将 进 
出 网 络 的 数据 识别 为 不 同 的 会 话 , 针 对 每 个 会 话 建立 状态 连接 表 , 利 用 状态 表 跟踪 每 一 个 会 
话 的 状态 。 基 于 状态 检查 的 防火 墙 不 仅 根 据 规则 表 对 报 文 进行 处 理 , 还 会 考虑 报 文 是 否 符 
合 会 话 所 处 的 状态 ,相对 于 报 文 过 滤 机 制 具有 更 强 的 识别 和 处 理 能 力 , 更 高 的 安全 性 。 
Linux 网 络 协议 栈 的 这 一 特性 通过 连接 跟踪 (connection tracking) 机 制 来 实现 。 

连接 跟踪 就 是 跟踪 每 一 条 连接 。 连 接 跟踪 机 制 使 用 在 linux/netfilter_ipv4/ ip. 
conntrack. h 中 定义 的 struct ip conntrack 结构 来 描述 一 条 连接 。 其 他 的 实现 代码 保存 在 
net/ipv4/netfilter/ip conntrack standalone. c. 和 net/ipv4/netfilter/ip_conntrack_ core. c 
文件 中 。 这 一 功能 模块 的 实现 也 基于 Netfilter 提供 的 钧 子 函 数 。 如 图 2-4 所 示 ,连接 跟踪 
模块 在 NF_IP_PRE_ROUTING fll NF IP LOCAL OUT 上 定义 了 高 优先 级 的 处 理 函数 ， 
这 两 个 点 分 别 是 报 文 接收 和 发 送 流程 中 经 过 的 第 一 个 钧 子 点 ,因此 报 文 在 进入 防火 墙 之 前 
首先 会 进行 连接 识别 处 理 , 这 一 步 会 为 每 个 报 文 找到 所 属 的 连接 。 此 后 ,防火 墙 不 仅 能 够 看 
到 单个 报 文 的 内 容 , 还 掌握 了 该 报 文 所 属 连接 的 相关 状态 信息 。 防 火 墙 可 以 根据 这 些 连接 
的 状态 制定 更 加 丰富 的 规则 ,以 实现 状态 检测 。 


5. 邻居 子 系统 


在 通过 网 络 转发 分 组 的 过 程 中 ,一 台 主 机 需要 将 分 组 转发 给 距离 目标 主机 更 近 的 相 邻 
主机 ,并 且 需 要 知道 相 邻 主机 第 3 层 和 第 2 层 地 址 之 间 的 映射 关系 。 在 TCP/IP 协议 族 中 
完成 上 述 功能 的 是 在 IPv4 中 使 用 的 ARP 协议 和 在 IPv6 中 使 用 的 邻居 发 现 (neighbor 
discovery) 协 议 。 

虽然 不 同 的 网 络 协议 会 采用 不 同 的 方法 或 协议 来 解决 地 址 映射 问题 ,但 它们 的 目的 是 
相同 的 ,因此 Linux 的 邻居 子 系统 把 这 些 公用 部 分 抽象 出 来 ,形成 一 个 与 具体 协议 无 关 的 服 
务 接 口 ,针对 各 种 具体 协议 的 实现 则 作为 底层 细节 被 隐藏 在 统一 的 接口 之 下 。 公 用 部 分 提 
供 的 主要 功能 包括 : 缓存 机 制 和 超时 机 制 。 其 中 缓存 机 制 包括 两 个 方面 : 第 3 层 和 第 2 层 
地 址 的 映射 关系 缓存 和 第 2 层 帧 头 信息 (frame header) 的 缓存 。 各 种 映射 关系 都 存在 实效 
性 问题 ,因此 公用 部 分 提供 了 一 种 通用 的 老化 和 超时 机 制 来 维护 映射 关系 的 有 效 性 ,并 且 定 
义 了 通用 的 状态 迁移 图 。 

TE Linux 网 络 协 议 栈 的 实现 中 ,include/net/neighbour. h 文件 中 定义 了 一 个 相当 于 面 
向 对 象 术语 中 抽象 基 类 的 结构 struct neigh_table, 而 某 种 具体 的 地 址 解析 模块 (如 ARP) 则 
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是 neigh table 结构 的 一 个 实例 。 例 如 一 个 Linux 主机 可 能 同时 运行 IPv4 和 IPv6 两 种 网 
络 层 协议 , 它 对 应 的 neigh_table 结构 就 是 arp_tbl 和 nd_tbl。 表 示 一 个 具体 邻居 的 结构 是 
同样 定义 在 include/net/neighbour. h 中 的 struct neighbour, 它 保存 了 每 个 邻居 的 具体 状态 
数据 \ 操 作 函 数 集 和 关键 字 等 信息 。 在 neigh_table 中 使 用 哈 希 表 来 维护 由 neighbour 结构 
表示 的 邻居 信息 。 相 应 的 基本 操作 包括 增加 、 查 找 、 删 除 邻居 表 和 邻居 维护 邻居 状态 等 ,这 
些 代码 都 定义 在 net/core/neighbour. c 文件 中 。 另 外 在 文件 include/net/netdevice. h 中 定 
义 的 struct hh. cache 表示 第 2 层 帧 头 信息 的 缓存 。 

ARP 协议 的 实现 代码 保存 在 文件 include/net/arp. h 和 net/core/ipv4/arp. c 中 。 在 
neigh_table 结构 中 定义 了 一 个 函数 指针 constructor, 它 是 公有 部 分 留 给 具体 协议 按照 自己 
的 需要 来 初始 化 neighbour 结构 的 一 个 机 会 。 对 于 ARP 协议 来 说 ,会 利用 这 个 机 会 调用 
arp. constructor 函数 ,该 函数 主要 完成 对 neighbour--ops 的 设 定 。 一 般 情 况 下 ,这 一 组 函 
数 指针 会 指向 全 局 变量 arp_hh_ops。 当 协议 栈 需 要 获得 一 对 新 的 IP 和 MAC 地 址 映射 关 
系 时 ,会 通过 函数 指针 间接 调用 arp. solicit 函数 来 构造 所 需 的 ARP 报 文 。 负 责 发 送 和 接收 
ARP 报 文 的 接口 分 别 是 arp. send 和 arp. rcv M% 


6. 网 桥 模块 


网 桥 是 一 种 工作 在 第 2 层 的 网 络 互联 设备 ,主要 用 于 在 数据 链 路 层 上 将 两 个 或 多 个 物 
理 上 独立 的 局 域 网 连接 为 一 个 网 段 。 网 桥 和 交换 机 在 本 质 上 是 相同 的 ,前 者 主要 用 于 在 文 
档 中 (特别 是 IEEE 规范 ) 描 述 第 2 层 连接 设备 和 说 明 支 撑 树 协议 (STP) 算 法 ,而 后 者 多 指 
实际 的 网 络 设 备 。 

网 桥 的 主要 功能 是 根据 链 路 层 的 地 址 ,如 Ethernet 中 的 MAC 地 址 来 进行 帧 转发 。 同 
时 ,网 桥 还 具有 自动 学 习 功 能 ,可 以 在 帧 转发 的 过 程 中 智能 地 形成 转发 表 。 网 桥 的 另 一 个 重 
要 特征 是 必须 支持 支撑 树 协议 ,以 去 除 网 络 中 可 能 出 现 的 环 路 。 网 桥 中 最 常用 的 是 透明 网 
桥 。Linux 网 络 协议 栈 中 实现 了 透明 网 桥 的 功能 。 

网 桥 设 备 在 Linux 网 络 协议 栈 中 属于 虚拟 设备 , 它 必须 借助 于 物理 设备 来 完成 实际 数 
据 的 收发 。 因 此 在 启用 网 桥 之 前 必须 要 将 某 些 物 理 设备 , 如 网 络 接口 卡 作 为 端口 绑 定 到 网 
桥 上 。 

Linux 网 桥 部 分 的 实现 代码 保存 在 net/bridge/ 目 录 下 。 代 码 中 定义 net_bridge 结构 表 
示 网 桥 设 备 ,定义 net_bridge_port 结构 来 表示 网 桥 上 的 一 个 端口 .它们 的 结构 声明 都 在 
net/bridge/br private. h 文件 中 。 在 文件 net/bridge/br if. c 中 提供 了 创建 和 删除 网 桥 的 
方法 : br add bridge 和 br. del. bridge 以 及 为 网 桥 添加 和 删除 端口 的 方法 : br. add if 和 br 
del if, 

网 桥 转 发 帧 时 必须 查询 转发 信息 库 , 实 现 这 一 功能 的 代码 定义 在 文件 net/bridge/br | 
fdb. c 中 。 转 发 信息 数据 库 本 身 由 net. bridge 结构 中 定义 的 哈 希 表 来 实现 。 哈 希 表 中 的 每 
一 项 都 是 net bridge fdb entry 结构 的 一 个 实例 ,该 结构 表示 从 网 桥 任意 端口 学 习 到 的 一 
个 MAC 地 址 信息 。 可 以 使 用 fdb find 函数 在 信息 库 中 查找 所 需 的 内 容 。 此 外 ,该 文件 中 
还 提供 了 添加 和 删除 项 目 等 信息 库 维 护 函数 。 

另外 ,为 网 桥 提供 STP 协议 支持 的 代码 在 net/bridge 目录 中 以 br. stp 开头 的 文件 中 。 

使 用 Linux 中 的 网 桥 模块 来 实现 软 网 桥 时 ,可 以 使 用 Netfilter/Iptables 框架 来 处 理 网 
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桥 设 备 本 身 发 送 和 接收 的 帧 ,但 不 包括 网 桥 转发 的 帧 。 根 据 前 面 的 介绍 ,Netfilter/Iptables 
框架 在 分 组 处 理 过 程 中 设置 钩子 函数 ,从 而 使 开发 人 员 可 以 获得 对 网 络 协议 栈 中 的 报 文 进 
行 自 定义 处 理 的 机 会 ,常见 的 处 理 包括 分 组 过 滤 和 NAT 等 。Linux 中 通过 Ebtables 
(Ethernet Bridge Tables) 框 架 在 网 桥 转发 处 理 过 程 中 设置 钩子 函数 点 ,来 获得 处 理 被 网 桥 
转发 的 数据 帧 的 机 会 。Ebtables 不 仅 可 以 处 理 TP 报 文 . 还 能 够 处 理 任 何 协议 类 型 的 帧 , 常 
用 的 处 理 包括 对 目的 MAC 地 址 的 蔡 换 等 。 

通过 对 Netfilter/Iptables 与 Ebtables 框架 的 结合 ,可 以 构建 网 桥 式 防火 墙 。 这 种 防火 
墙 从 外 部 来 看 是 一 个 网 桥 , 对 网 络 中 的 路 由 器 和 主机 来 说 都 是 透明 的 ,可 以 在 不 改变 任何 网 
络 配置 的 情况 下 来 部 署 它 ,但 其 却 拥有 防火 墙 的 功能 ,能 够 对 流 经 网 桥 的 内 容 进 行 过 滤 和 
监控 。 


7. 流量 控制 管理 


目前 大 多 数 路 由 器 和 交换 机 都 支持 服务 质量 (QoS) 管 理 ,进行 流量 控制 ,如 保证 某 些 应 
用 获得 足够 的 带宽 ,限制 某 些 连接 占用 网 络 带宽 的 数量 等 。 在 Linux 网 络 协议 栈 中 既 可 以 
控制 向 外 的 流量 ,也 可 以 控制 向 内 的 流量 。 对 于 向 外 的 流量 ,可 以 采用 很 多 不 同 的 队列 调度 
算法 来 达到 各 种 控制 目的 ,如 保证 每 个 连接 不 超过 上 限 值 ,或 实现 类 似 于 漏 桶 (leaky 
bucket) 的 策略 来 平滑 突 发 的 数据 流量 ,使 网 络 负载 更 为 稳定 。 对 于 超过 流量 限制 的 报 文 可 
以 采取 延迟 发 送 或 丢弃 的 处 理 方法 。 但 对 于 向 内 的 流量 只 能 根据 一 些 预 先 设 定 的 策略 来 决 
定 是 接收 还 是 丢弃 。 

Linux 中 的 流量 控制 由 3 种 对 象 来 实现 ,它们 是 : Qdisc、Class 和 Filter, 

(1) 排队 规则 

Qdisc(Queueing Discipline) 是 Linux 中 实现 流量 控制 的 基础 。 无 论 何 时 ,内 核 如 果 需 
要 通过 某 个 网 络 接口 发 送 报 文 ,都 需要 按照 为 这 个 接口 配置 的 排队 规则 把 报 文 添加 到 输出 
队列 。 然 后 ,内 核 会 按照 排队 规则 从 队列 中 取出 报 文 ,把 它们 交 给 网 络 适配器 进行 发 送 。 最 
简单 的 Qdisc 是 pfifo, 它 不 对 进入 队列 的 报 文 做 特殊 处 理 ,只 是 让 它们 按照 * 先 入 先 出 ”的 
顺序 通过 队列 。 

(2) 分 类 

某 些 Qdisc 支持 分 类 细 化 (例如 CBQ 和 HTB 等 ) ,每 个 子 类 又 可 以 规定 自己 使 用 的 排 
队 规 则 。 通 过 分 类 可 以 组 成 一 个 Qdisc 树 ,每 个 类 都 只 有 一 个 父 类 ,而 一 个 类 可 以 有 多 个 
子 类 。 

(3) 过 滤器 

Filter 用 于 为 报 文 分 类 ,决定 它们 所 属 的 类 别 ,进而 决定 它们 按照 何 种 Qdisc 进出 队列 。 
只 要 报 文 进入 具有 子 类 的 类 别 中 ,就 需要 借助 过 滤器 进行 分 类 。 

图 2-5 给 出 了 一 个 应 用 Qdisc, Class 和 Filter 的 例子 。 内 核 调用 enqueue 函数 将 报 文 
交 给 一 个 支持 分 类 的 排队 规则 (Qdisc 1 : 0) ,然后 通过 Filter 决定 报 文 所 属 的 子 类 别 (Class 
1: 1 或 Class 1 : 2), 最 后 加 入 到 对 应 的 子 排队 规则 中 (Qdisc 2 : 0 3X Qdisc 3 : 0. 

实现 流量 控制 模块 的 代码 主要 集中 在 net/sch 目录 下 ,其 中 net/sched/sch_*.c 文 件 
中 有 各 种 Qdisc 的 实现 方法 。 每 种 Qdisc 的 实现 中 最 重要 的 是 enqueue 和 dequeue 函数 。 
enqueue 函数 会 通过 分 类 把 报 文 加 入 到 合适 的 等 待 队列 中 ,而 dequeue 函数 则 负责 从 满足 
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图 2-5 使 用 Qdisc,Class 和 Filter 进行 流量 控制 的 示例 


流量 限制 的 各 个 等 待 队列 中 取出 一 个 适当 的 报 文 进行 发 送 , 即 在 启用 流量 控制 模块 后 ,网 卡 
所 发 送 的 全 部 报 文 都 通过 dequeue 函数 获取 。 

在 文件 net/sched/sch_ingress. c 中 实现 了 向 内 的 流量 控制 ,入 队 隐 数 为 ingress_ 
enqueue, 如 果 报 文 超出 了 流量 限制 (quota) , 则 会 被 内 核 丢 弃 , 只 有 在 流量 限制 之 内 的 报 文 
才 会 被 协议 栈 继续 处 理 。 不 难看 出 ,向 内 流量 的 enqueue 函数 实际 上 并 没有 将 报 文 加 入 到 
任何 队列 之 中 ,所 以 不 需要 实现 dequeue 函数 。 

在 启用 QoS 功能 后 ,用 户 可 以 通过 tc 命令 来 配置 流量 控制 模块 ,该 命令 的 具体 使 用 方 
法 可 以 参考 man 手册 。 


8. 原始 套 接 字 和 PACKET 协议 族 


如 图 2-2 所 示 ,在 Linux 中 实现 的 TCP/IP 网 络 协议 栈 源码 不 仅 能 够 完成 TCP 和 UDP 
协议 的 发 送 和 接收 流程 ,还 支持 两 类 比较 特殊 的 报 文 处 理 方法 : INET 协议 族 的 原始 套 接 
(RAW socket) fll PACKET 协议 族 。 下 面 以 常用 的 ping 程序 为 例 , 介 绍 INET 协议 族 的 
原始 套 接 字 的 发 送 过 程 。 

调用 ping 程序 去 探测 其 他 主机 时 ,应 用 程序 需要 在 用 户 空间 构造 ICMP 协议 的 ICMP 
_ECHO_REQUEST 报 文 ,然后 利用 RAW socket 将 数据 传 给 内 核 , 内 核 并 不 会 处 理 ICMP 
报 文 头 部 的 任何 内 容 , 只 是 为 它 增加 合法 的 IP 报头 后 直接 发 送出 去 ,IP 层 以 下 的 发 送 过 程 
并 无 特殊 之 处 。 目 的 主机 收 到 ICMP_ECHO_REQUEST 报 文 后 会 直接 利用 协议 栈 中 的 
ICMP 模块 来 生成 ICMP_ECHO_REPLY 报 文 作为 回应 。 因 此 ICMP 协议 的 实现 代码 部 
分 在 用 户 空间 ,部 分 在 内 核 空间 。 此 外 ,使 用 RAW socket 发 送 报 文 时 ,还 可 以 利用 IP_ 
HDRINCL 选项 来 获得 创建 IP 报头 的 权利 ,实现 自 定义 IP 报头 的 目的 。 

对 于 原始 socket 的 接收 流程 来 说 , 当 程序 中 创建 了 一 个 SOCK_RAW 类 型 的 socket, 
并 指定 了 目标 协议 之 后 ,系统 开始 使 用 raw_v4_htable 对 网 卡 收 到 的 数据 包 进 行 匹配 筛选 。 
并 将 符合 下 列 条 件 的 数据 包 返 回 给 应 用 程序 : 

(1) IP 报头 中 指定 的 第 4 层 协议 类 型 和 socket 指定 的 协议 类 型 相同 。 

(2) socket 绑 定 了 本 地 地 址 ,并且 与 IP 报头 中 的 目的 地 址 相同 。 

(3) socket 绑 定 了 目的 地 址 ,并 且 与 IP 报头 中 的 源 地 址 相同 。 
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一 台 主 机 上 可 以 有 多 个 socket 同时 满足 这 些 条 件 , 因 此 一 个 原始 IP 报 文 有 可 能 同时 
被 多 个 应 用 程序 接收 。 所 以 在 使 用 RAW socket 时 ,多 个 应 用 程序 可 能 都 会 收 到 同一 个 报 
文 ,每 个 应 用 程序 必须 自行 判断 是 否 需 要 该 报 文 ,接受 或 者 丢弃 这 些 报 文 。 在 使 用 TCP 或 
者 UDP 协议 时 ,完全 由 内 核 负责 通过 端口 号 将 报 文 投递 给 某 个 特定 的 socket, 进 而 投递 给 
拥有 该 特定 socket 的 应 用 程序 。 即 内 核 负责 处 理 与 TCP 和 UDP 多 路 复 用 相关 的 事宜 ,而 
对 于 原始 数据 ,必须 由 使 用 原始 socket 的 应 用 程序 在 用 户 空间 来 进行 相应 的 多 路 复 用 和 解 
复 用 的 过 程 。 因 此 如 果 某 个 协议 中 涉及 大 量 的 多 路 复 用 和 解 复 用 操作 ,就 应 该 避免 使 用 原 
始 socket 来 实现 。 

PF PACKET 类 型 的 socket 是 一 类 允许 应 用 程序 不 经 过 网 络 协议 栈 而 直接 读 写 网 络 
设备 的 接口 (如 图 2-2 所 示 )。 应 用 程序 可 以 针对 某 种 报 文 类 型 创建 PF. PACKET socket. 
如 ADSL 拨号 时 所 采用 的 PPPOE 协议 中 的 连接 管理 报 文 类 型 为 ETH_P_PPP_DISC ,这 意 
味 着 网 络 协议 栈 收 到 这 类 报 文 后 ,会 直接 投递 给 相应 的 socket, 进 而 被 应 用 程序 所 接收 并 处 
理 。 另 一 方面 ,应 用 程序 使 用 PF. PACKET socket 发 送 的 报 文 时 ,也 不 会 经 过 内 核 网 络 协 
议 栈 的 处 理 (如 增加 IP 报头 等 ), 而 是 直接 交 给 网 络 接口 设备 进行 发 送 (注意 : 应 用 程序 必 
须 自己 提供 包括 第 2 层 报头 在 内 的 各 级 报 文 头 部 ) , 即 应 用 程序 可 以 在 用 户 态 实现 一 个 自己 
的 网 络 协议 栈 , 然 后 利用 PF_PACKET socket 进行 发 送 和 接收 。 

PF PACKET socket 的 另 一 种 常用 功能 是 实现 嗅 探 器 ,要 实现 这 一 功能 就 需要 socket 
能 够 获得 各 种 协议 类 型 的 报 文 。 为 此 Linux 内 核 提 供 了 ETH_P_ALL 类 型 (如 图 2-2 中 所 
示 为 ptype_all[ ] 数 组 ) 来 匹配 第 2 层 收 到 的 各 类 报 文 。PF_PACKET socket 支持 两 个 稍 有 
不 同 的 socket 类 型 ,SOCK_DGRAM 和 SOCK_RAW。 前 者 让 内 核 来 完成 添加 或 者 删除 
Ethernet 帧 头 部 的 工作 ,而 后 者 则 让 应 用 程序 对 Ethernet 帧 头 部 拥有 完全 的 控制 。 因 为 每 
台 主 机 都 可 能 收 到 大 量 报 文 ,所 以 嗅 探 器 功能 十 分 耗费 资源 ,这 就 要 求 程序 提供 一 种 有 效 的 
过 滤 机 制 ,来 屏蔽 不 需要 收集 的 报 文 。 在 这 方面 ,PF_PACKET socket 本 身 可 以 利用 bind 
函数 指定 接收 特定 设备 (例如 ,eth0) 上 收 到 的 报 文 。 另 外 ,Linux 内 核 提 供 了 一 个 名 为 LPF 
(Linux Packet Filter) 的 过 滤器 , 它 直接 应 用 到 PF PACKET 接收 报 文 的 过 程 中 ,这 个 过 滤 
程序 可 以 根据 使 用 者 的 定义 来 运行 。 

在 编写 嗅 探 器 程序 抓 取 所 有 经 过 网 卡 的 报 文 时 会 使 用 libpcap 库 。libpcap 库 在 Linux 
系统 中 的 实现 依赖 于 PF PACKET socket, 该 库 提供 的 是 对 PF PACKET 套 接 字 进行 适当 
包装 后 形成 的 一 组 更 高 级 、 更 简单 易 用 的 接口 。 

通过 INET 协议 族 的 原始 套 接 字 和 PACKET. 协议 族 ,用 户 程序 可 以 自行 创建 或 处 理 
某 些 协议 的 报头 。 两 者 的 区 别 主要 体现 在 创建 和 接收 报头 的 能 力 不 同 。INET 协议 族 的 原 
始 套 接 字 可 以 创建 第 4 层 及 其 以 上 各 层 协议 的 报头 ,配合 IP_HDRINCL 选项 也 可 以 创建 
IP 报头 ,但 是 网 络 层 必须 使 用 IP 协议 ;而 PF_PACKET 协议 族 要 求 用 户 提供 第 2 层 及 其 以 
上 的 各 级 报头 ,因此 适用 于 其 他 各 种 网 络 层 协议 。 在 接收 时 ,INET 协议 族 的 原始 套 接 字 只 
能 获得 IP 报 文 的 负载 部 分 ,而 无 法 获得 IP 报头 ;而 使 用 PF. PACKET 协议 族 不 但 可 以 获 
得 IP 报头 ,还 可 以 获得 Ethernet 帧 头 部 的 内 容 。 

本 节 首 先 介绍 了 Linux 网 络 子 系统 的 设计 原则 ,然后 结合 TCP/IP 协议 栈 的 实现 简单 
介绍 了 Linux 中 常用 的 网 络 功能 模块 。 但 Linux 网 络 协议 栈 功能 繁多 ,本 节 内 容 不 可 能 面 
面 俱 到 ,有 兴趣 的 读者 可 以 阅读 参考 资料 中 给 出 的 (The Linux Networking Architecture, 
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Design and Implementation of Network Protocols in the Linux Kernel) #I( Understanding 


Linux Network Internals》, 这 两 本 书 来 更 深入 地 了 解 Linux 网 络 协议 栈 的 相关 内 容 。 


2.2 Linux 网 络 协议 栈 中 报 文 发 送 和 接收 流程 导读 


本 节 的 内 容 是 选取 Linux 2. 6. 14 内 核 作 为 分 析 和 讨论 的 对 象 , 对 Linux 网 络 协议 栈 源 
码 进行 分 析 和 总 结 。 报 文 发 送 和 接收 流程 的 源码 比较 成 熟 ,与 Linux 2. 4 的 内 核 相 比 变化 
的 内 容 并 不 多 。 但 是 需要 注意 两 个 内 核 版 本 在 BSD socket 层 实现 上 的 差异 ,本 节 在 分 析 过 
程 中 会 给 出 相应 的 提示 。 读 者 可 以 选择 一 个 自己 熟悉 的 Linux 内 核 版 本 ,结合 源码 阅读 本 
节 的 内 容 , 对 于 差异 之 处 ,请 读者 根据 本 文 提示 的 线索 自行 分 析 。 


2.2.1 报 文 在 Linux 网 络 协议 栈 中 的 表示 方法 


要 掌握 网 络 协议 栈 发 送 和 接收 报 文 的 流程 ,就 必须 首先 了 解 内 核 如 何 表示 报 文 。 上 一 
节 介绍 过 Linux 的 网 络 协议 栈 在 设计 时 就 考虑 


到 尽 可 能 做 到 与 具体 协议 无 关 的 通用 性 ,这 种 AGE 

通用 性 也 体现 在 报 文 的 表示 方法 上 。 内 核 中 使 len-tail-data 

JH T socket Z ff (socket buffer) 的 概念 来 表示 pur ln | 有效 数 据 

和 管理 各 种 协议 的 报 文 。 在 内 核 中 ,每 一 个 tail 

socket 缓存 都 表示 一 个 正在 被 处 理 的 报 文 。 - EN 

socket 缓存 由 管理 区 (struct sk_buff) 和 数据 区 - 引用 计数 
struct sk. buff 

两 个 部 分 组 成 ,其 关系 如 图 2-6 所 示 。 B (datarefp-1) 


为 了 通过 管理 区 直接 操作 数据 区 ,重点 是 图 2-6 socket 缓存 中 的 管理 区 和 数据 区 示意 图 
要 解决 : 如 何 对 管理 区 进行 有 效 的 组 织 和 管 
理 。 报 文 的 管理 区 域 由 一 个 sk_buff 结构 来 表示 ,通常 用 skb 表示 ,可 以 认为 该 结构 是 
Linux 网 络 协议 栈 中 最 重要 的 一 个 数据 结构 ,其 中 的 字段 众多 ,读者 可 以 在 文件 二 include/ 
linux/skbuff. h 之 中 找到 完整 的 定义 。 

总 的 来 说 ,sk_buff 中 的 字段 可 以 划分 为 4 类 : 控制 内 存 布局 的 字段 .协议 通用 字段 UE 
定 功能 使 用 的 字段 和 管理 函数 指针 。 

首先 从 两 个 方面 对 控制 内 存 布局 的 字段 进行 讨论 。 


1. 控制 数据 区 的 布局 


在 sk_buff 中 有 4 个 指针 分 别 指向 保存 报 文 数据 的 内 存 空间 中 的 不 同位 置 ,它们 分 别 
JÆ head, data, tail 和 end, 3X 4 个 指针 把 数据 区 分 成 3 个 部 分 。 

如 图 2-6 所 示 head 和 data 之 间 是 头 部 空间 ,tail 和 end 之 间 是 尾部 空间 ,data 和 tail 
之 间 保 存 真 正 有 效 的 数据 : 报 文 负载 和 各 层 协 议 头 部 。 除 了 这 4 个 指针 ,在 没有 分 片 的 情 
况 下 ,字段 len 表示 报 文 的 大 小 , 它 的 值 一 般 是 tail 和 data 这 两 个 地 址 的 差 值 。 网 络 协议 栈 
在 处 理 报 文 的 过 程 中 经 常 要 进行 添加 或 去 除 报头 的 操作 ,这 就 需要 不 断 地 改变 报 文 所 占用 
内 存 的 大 小 , 即 要 改变 socket 缓存 中 有 效 数 据 区 域 的 大 小 。 从 图 2-6 可 以 看 出 ,改变 data 
指针 的 位 置 , 可 以 调整 头 部 空间 的 大 小 ;改变 tail 指针 的 位 置 . 则 可 以 调整 尾部 空间 的 大 小 。 


$23 Linux 网络 协议 栈 简介 


这 两 种 方式 都 可 以 改变 有 效 数据 区 域 的 大 小 ,因而 可 以 方便 地 支持 处 理 报 文 头 部 或 尾部 的 
操作 ,内 核 中 把 调整 skb 指针 位 置 的 操作 封装 成 了 一 组 管理 函数 。 

另 一 个 值得 注意 的 地 方 是 管理 区 和 数据 区 的 映射 关系 。 在 内 核 中 把 表示 一 个 报 文 的 对 
应 内 容 拆 分 为 两 个 单独 的 内 存 区 域 来 管理 ,以 便 支持 在 这 两 部 分 区 域 之 间 实现 一 对 多 的 关 
Ro EALA socket 需要 接收 同一 个 报 文 的 情况 下 ,例如 一 个 是 真正 接收 报 文 的 应 用 程序 
打开 的 socket, 另 一 个 可 能 是 嗅 探 器 使 用 的 socket, 就 需要 为 报 文 创建 副本 。 两 个 socket 都 
只 对 报 文 进行 读 操作 , 报 文 的 数据 区 域 可 以 由 两 个 socket 共享 。 因此 ,内 核 只 需要 创建 一 
个 管理 区 的 副本 ,然后 让 两 个 socket 通过 各 自 的 管理 区 结构 来 读 取 报 文 即 可 。 当 然 , 在 这 
种 方式 下 如 果 其 中 一 个 socket 修改 了 报 文 的 内 容 , 则 另 一 个 socket 也 会 受到 影响 。 这 种 管 
理 区 和 数据 区 之 间 的 多 对 一 关系 的 优点 在 于 减少 了 不 必要 的 内 存 分 配 ,提高 了 程序 运行 的 
效率 。 但 是 ,由 多 对 一 关系 引出 的 另 一 问题 是 : 当 程 序 结 束 了 对 一 个 报 文 的 处 理 并 准备 销 
毁 其 所 占用 的 内 存 时 ,是 否 应 该 把 管理 区 和 数据 区 同时 销毁 ? 如 果 有 其 他 管理 区 还 在 使 用 
该 数据 区 怎么 办 ? 解决 的 方法 是 使 用 引用 计数 。 数 据 区 域 自己 必须 维护 一 个 引用 计数 (如 
图 2-6 所 示 的 datarefp) ,来 记录 当前 数据 区 域 正 被 多 少 管理 区 使 用 。 建 立 映射 关系 时 ,计数 
值 加 1; 销 毁 sk_buff 时 计数 值 减 1。 当 计数 值 减少 到 0 时 ,就 表示 不 再 需要 这 个 数据 区 ,应 
该 连同 管理 区 一 起 销毁 。 有 关 sk buff 结构 复制 的 操作 将 会 在 后 面 做 进一步 介绍 。 

在 sk. buff 结构 中 还 有 另 一 个 引用 计数 是 users。 这 个 字段 表示 sk. buff 当前 被 多 少 个 
用 户 同时 使 用 , 即 当前 有 多 少 个 指针 正在 指向 sk buff 所 表示 的 管理 区 。 与 数据 区 的 情况 类 
似 , 只 有 当 引用 计数 users 的 值 减少 到 0 时 ,才能 释放 管理 区 。 因 此 ,内 核 中 可 能 存在 多 个 用 户 
使 用 同一 个 skb, 多 个 skb 使 用 同一 个 数据 区 的 情况 ,在 销毁 skb 时 也 要 考虑 这 些 情况 。 


2. sk buff 之 间 的 组 织 方法 


在 内 核 协议 栈 中 每 个 skb 都 表示 一 个 报 文 ,但 很 多 报 文 之 间 具 有 相关 性 。 例 如 ,同一 个 
socket 中 等 待 接收 的 报 文 ,或 某 一 个 网 络 设备 上 正在 等 待 发 送 的 报 文 。Linux 会 以 双向 链 
表 的 方式 把 这 些 相关 的 报 文 组 织 到 一 起 (如 图 2-7 所 示 )。 链 表 的 头 部 由 结构 体 sk_buff_ 
head 表示 ,其 中 除了 next 和 prev 两 个 指针 之 外 (网 络 协议 栈 通常 会 按照 队列 的 方式 来 操作 
skb 链表 ,因此 表 头 的 next 指向 队列 的 头 部 ,prev 指向 队列 的 尾部 ) ,还 记录 了 链表 的 长 度 
和 用 于 访问 互 斥 的 锁 。 每 个 skb 不 仅 通过 next 和 prev 指针 加 入 到 链表 之 中 ,而 且 都 保留 
了 指向 链表 头 部 的 指针 list。 除 了 基本 的 数据 结构 之 外 ,Linux 的 内 核 还 提供 了 对 该 链表 的 
操作 方法 ,如 skb_queue_head,skb_dequeue 和 skb insert 等 。 在 接收 报 文 的 流程 中 将 要 介 
绍 的 socket 的 接收 队列 就 采用 了 这 种 方式 来 组 织 报 文 。 

除了 上 面 介绍 的 两 类 控制 内 存 布局 的 字段 之 外 ,skb 中 还 包含 一 个 指向 sock 结构 的 指针 
sk, 这 个 sock 结构 所 表示 的 socket 是 该 sk_buff 的 所 有 者 。 如 果 skb 表示 本 机 发 送 或 接收 的 报 
文 , 则 应 用 程序 以 及 传输 层 协议 都 必然 要 通过 socket 来 完成 收发 数据 的 工作 ,此 时 该 指针 是 
skb 和 socket 之 间 的 纽带 。 如 果 skb 表示 由 协议 栈 转发 的 报 文 , 则 该 指针 应 该 为 空 。 

接 下 来 是 协议 通用 字段 ,顾名思义 就 是 处 理 每 个 报 文 的 过 程 中 都 需要 使 用 到 的 字段 E 
要 包括 指向 负责 处 理 报 文 的 网 络 设备 对 象 的 指针 struct net. device * dev 和 保存 报 文 路 由 
信息 的 结构 体 struct dst. entry dst, 以 及 指向 表示 不 同 层次 协议 报 文 头 部 的 指针 结构 : 


union (...) h; 
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struct sk buff head 


next re 
=| prev 
qlen=3 一 一 一 
pom lock a | 
1 li 
1 li 
I Fg 
—| next T =| next Ha ea next P 
1 1 
prev .— [-—T1 prev m+ - prev  [-* 
is --4 is p-d L- is 
sk sk sk 
struct sk buff struct sk buff struct sk. buff 


图 2-7 sk buff 结构 的 双向 链表 示例 


union (...] nh; 


union (...] mac; 

这 3 个 指针 分 别 指向 位 于 TCP/IP 协议 栈 中 2 一 4 层 协议 的 报头 : 
(1) h 表示 第 4 层 (例如 ,TCP 或 UDP 报头 ); 

(2) nh 表示 第 3 层 ( 例 如 ,IP 报头 ); 

(3) mac 表示 第 2 层 (例如 ,Ethernet 帧 首部 ) 。 


每 层 协议 的 报头 指针 都 用 一 个 union 结构 来 表示 ,其 中 罗列 了 所 有 内 核 支持 的 该 层 协 


议 的 头 部 格式 。 例 如 网 络 层 头 部 的 定义 如 下 ,其 中 包括 IPv4、IPv6 和 IPX 等 协议 ， 


//Network layer header 
union 
t 
struct iphdr * im; 
struct ipvéhdr * ipvá 
strict axphdr — * arh; 
unsigned char * raw; 
)nh 


每 个 union 中 都 包含 一 个 raw 字段 , 它 的 主要 作用 是 在 还 无 法 识别 协议 类 型 时 进行 初 
始 化 工作 ,识别 出 报头 的 协议 类 型 之 后 就 可 以 通过 表示 具体 协议 类 型 的 头 部 指针 来 处 理 报 


头 的 内 容 了 。 


需要 注意 的 是 : Linux 内 核 从 2. 6. 22 开始 对 sk. buff 结构 进行 了 修改 ,更 新 了 各 层 报 
头 指 针 的 处 理 和 表示 方法 , 即 明 确定 义 了 transport_header、network_header 和 mac_header 


这 3 个 指针 ,分 别 指向 2 一 4 层 的 报 文 头 部 。 所 以 本 节 涉 及 对 报 文 头 部 的 处 理 内 容 皆 适用 于 


2.6.22 之 前 的 内 核 源 代码 ,对 于 2. 6. 22 版 本 之 后 ,网 络 协议 栈 对 报头 处 理 的 情况 ,请 读者 


根据 本 文 的 线索 自行 分 析 。 
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当 网 络 协议 栈 处 理 接收 到 的 报 文 时 ,经 过 第 "一 1 层 处 理 之 后 skb 一 data 指针 会 指向 第 
nn 层 报头 的 开始 位 置 ,此 时 第 层 的 处 理 函数 应 该 用 skb 中 的 第 n EEG dS FE ioo Fn 
层 报 头 的 地 址 ,因为 在 第 m 层 完成 处 理 之 后 ,skb 一 data 会 移 到 第 n 十 1 层 报头 的 开始 位 置 ， 
如 果 不 加 以 记录 , 则 第 nn 层 报头 的 起 始 位 置 就 会 丢失 ,这 个 处 理 过 程 如 图 2-8 所 示 。 在 发 送 
报 文 的 过 程 中 ,处 理 报头 的 顺序 正好 相反 。 


skb— mac skb— nh skb 一 mac skb—nh skb—h 
以 太 网 报头 | IRSE | TCP " “e= TCP n 
(2) | (3) | 报头 (L4) (2) | (3 | 报头 (LD 
UN 
skb- data um 
(a) 处 理 Ip 头 部 (b) 处 理 TCP 头 部 


图 2-8 报 文 从 第 3 层 转发 到 第 4 层 过 程 中 sk. buff 结构 头 部 指针 的 变化 情况 示意 图 


因为 Linux 内 核 采用 了 模块 化 的 设计 方法 ,很 多 功能 可 以 按 需 加 入 到 内 核 之 中 ,网 络 协 
议 栈 中 的 很 多 功能 也 是 根据 需要 来 决定 是 否 提供 的 ,例如 Netfilter。 为 支持 这 类 可 选 的 功 
能 ,sk_buff 结构 中 还 定义 了 一 部 分 特定 功能 使 用 的 字段 。 

最 后 来 看 管理 函数 。 内 核 中 提供 了 很 多 用 于 管理 sk_buff 和 sk_buff 链表 的 函数 ,本 节 
只 对 其 中 最 重要 的 部 分 做 一 个 简单 介绍 。 如 果 读 者 有 兴趣 阅读 这 部 分 的 源 代码 ,就 会 发 现 
几乎 所 有 的 函数 在 命名 上 都 有 两 个 版 本 : do something 和 _do_something。 一 般 来 说 ,后 者 
负责 完成 函数 名 所 表示 的 功能 ,前 者 会 首先 完成 一 些 额 外 的 检查 和 加 锁 操 作 , 然 后 直接 调用 
后 者 。 除 非 在 调用 之 前 就 满足 条 件 ( 如 加 锁 、 更 新 引用 计数 值 等 ) ,否则 不 应 该 直接 调用 
_do_something 版 本 的 函数 。 

alloc_skb 和 kfree_skb 分 别 完成 创建 和 销毁 sk_buff 的 工作 ,新 创建 的 sk_buff 中 
head .data 和 tail 指针 全 部 指向 数据 区 的 开始 位 置 ,end 指针 指向 数据 区 的 结束 位 置 。 在 
kfree skb 中 则 要 处 理 引 用 计数 的 问题 , 当 skb—m users 的 值 为 0 时 , 才 会 调用 _kfree_skb IH 
还 管理 区 内 存 , 进 而 再 调用 kfree_skbmem 来 处 理 数据 区 的 复 用 问题 。 

为 了 方便 对 数据 区 的 进一步 处 理 ,内 核 提供 了 一 系列 操作 函数 ,这 些 操 作 大 量 应 用 于 报 
文 的 收发 过 程 ,对 于 阅读 和 理解 报 文 收发 过 程 的 源 代 码 具 有 重要 意义 。 具 体 的 函数 是 ， 
skb_reserve(n) ,skb push(n),skb pull(n),skb put(n) HI skb trim(n), E 2-9 分 别 给 出 
T skb reserve,skb push,skb pull,skb put 和 skb trim 的 功能 。 

由 图 2-9 可 以 看 出 ,一 旦 完成 对 数据 区 内 存 的 申请 ,head 和 end 指针 就 会 固定 不 变 。 调 
整 的 目标 集中 在 data 和 tail 指针 上 ,其 中 函数 push 和 pull 负责 调整 data 指针 ,函数 put 和 
trim 负责 调整 tail 指针 。 上 述 调整 函数 的 参数 都 是 无 符号 整数 ,而 且 除 了 函数 skb_trim 的 
参数 表示 调整 之 后 数据 区 的 大 小 之 外 ,其 他 的 n 都 表示 调整 的 增 量 大 小 ,因此 除 函 数 
skb_trim 之 外 的 其 他 函数 都 只 能 在 一 个 方向 上 移动 数据 指针 。 但 函数 trim 通常 用 于 移动 
tail 指针 来 减少 数据 区 的 大 小 ,这 也 是 其 函数 名 称 的 由 来 。 在 TCP/IP 协议 栈 的 报 文 发 送 
过 程 中 ,经 常会 使 用 函数 push 来 增加 新 一 层 报 文 头 部 ,而 在 报 文 接收 处 理 过 程 中 经 常会 使 
用 函数 pull 来 处 理 内 层 协 议 的 头 部 。 为 了 方便 记忆 ,可 以 形象 地 认为 函数 push 负责 “向 上 
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= 
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2-9 skb reserve.skb push.skb pull.skb put 与 skb_trim 功能 示意 图 


推 ”数据 指针 来 增加 数据 区 的 大 小 ,函数 pull 负责 * 向 下 拉 ” 数 据 指针 来 减少 数据 区 的 大 小 。 

必须 注意 的 是 这 些 操 作 只 会 修改 相应 指针 的 位 置 , 并 不 会 引起 数据 区 中 数据 的 增加 或 
减少 ,而 且 调用 者 需要 负责 检查 是 否 有 足够 的 内 存 缓冲 区 来 (如 头 部 空间 和 尾部 空间 ) 支 持 
指针 的 移动 ,如 果 没 有 则 返回 错误 。 

5 sk buff 复制 操作 有 关 的 函数 是 : clone 和 copy。 因 为 skb 中 包含 了 指向 数据 区 的 
指针 ,所 以 在 进行 复制 操作 时 要 决定 数据 区 是 否 要 连同 管理 区 一 起 被 复制 。 如 果 是 , 则 要 选 
用 skb copy 因 数 ;如 果 只 需要 创建 管理 区 副本 ,让 新 旧 管 理 区 共用 原 有 的 数据 区 , 则 应 该 选 
用 skb clone 函数 ,此 时 必须 更 新 数据 区 中 的 引用 计数 (如 图 2-10 所 示 )。 因 为 copy 函数 拨 
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贝 的 数据 量 更 大 ,所 以 也 被 称 为 * 深 拷贝 ”而 clone 被 称 为 “ 浅 拷贝 ”。 


头 部 空间 
len-tail-data len-tail-data 
head len 有 效 数据 head 
data data 
tail | tail 
end m end 
.| 尾部 空间 
struct sk buff 引用 计数 struct sk buff 
(datarefp-2) 


图 2-10 调用 skb clone 后 的 sk_buff 结构 示意 图 


sk buff 结构 只 是 在 Linux 网 络 协议 栈 内 部 用 来 表示 报 文 的 私有 数据 结构 ,其 中 既 包 含 
报头 也 包含 报 文 中 的 有 效 数 据 载荷 。 对 于 网 络 的 用 户 来 说 (如 各 种 网 络 应 用 程序 ) ,只 需要 
通过 Socket. API 来 完成 有 效 数据 载荷 的 发 送 和 接收 功能 ,而 不 需要 处 理 报头 的 内 容 , 即 
Socket API 函数 只 需要 将 重点 放 在 如 何 有 效 地 在 应 用 程序 和 内 核 中 的 socket 之 间 传 递 报 
文中 的 数据 载荷 即 可 。 最 简单 也 是 最 常用 的 方法 是 使 用 一 块 数据 缓冲 区 直接 保存 报 文 的 内 
X send 和 recv 等 函数 均 采用 这 种 方式 。 

Socket API 中 还 定义 了 一 种 可 以 实现 批量 数据 传递 的 数据 结构 ，struct msghdr, 在 
POSIX. 1 标准 中 规定 该 结构 至 少 需 要 具有 如 下 字段 : 


struct msghdr ( 
void * msg name; //apticnal address 
socklen t msg namelen; //addxess size in bytes 
struct iovec * msg iov; //array of 1/O buffers 
int msg iovlen; //mnber of elements in array 
void * msg control; //ancillary data 
socklen t msg controllen; //nuniber of ancillary bytes 
int msg flags; //flags for received message 


a 


其 中 msg_iov 指向 一 个 由 struct iovec 组 成 的 数组 ,msg_iovlen 说 明 数 组 中 有 效 成 员 的 
个 数 ( 如 图 2-11 所 示 )。struct iovec 中 的 iov. base 会 指向 一 块 真正 的 数据 缓冲 区 ,而 iov_ 
len 则 表示 该 缓冲 区 的 长 度 。 这 样 一 个 msghdr 结构 总 共 可 以 表示 msg_iovlen 块 有 效 数据 
区 域 , 能 够 提高 发 送 和 接收 socket 函数 的 效率 。 

在 POSIX. 1 标准 中 ,使 用 msghdr 结构 的 Socket API 定义 如 下 : 


ssize t sendmsg(int sockfd, const struct msghdr * msg, int flags); 

ssize t recumsg(int sockfd, struct msghdr* msg, int flags); 

不 仅 在 应 用 程序 中 可 以 使 用 msghdr 结构 ,Linux 网 络 协议 栈 的 实现 中 也 使 用 该 结构 作 
为 发 送 和 接收 过 程 中 表示 缓冲 数据 的 统一 形式 。 
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struct iovec[] 
struct msghdr iov base[0] [0] AMKO 
iov len[0]| len 0 len 0 
msg iov [ L— 
msg iovlen-N len 1 AE cin r 
— |] len | 
[N-1] 
len N-1 — L 缓冲 区 N-1 
len N-1 


2.2.9 报 文 发 送 过 程 


2-11 struct msghdr 的 结构 图 


下 面 从 一 个 简单 的 基于 Client/Server 模式 的 socket 网 络 编程 实例 人 手 , 分 析 Linux 网 


络 协议 栈 发 送 和 接收 报 文 的 主要 流程 ,这 里 只 给 出 了 客户 端 程序 的 示意 代码 ， 


struct hostent* server; 
int sockfd; 
char buf [BUFLEN] ; 


server- gethostbyname (SERVER. NAME) ; 
Sockfd- socket(AF INET,SOCK STREAM, 0); 


struct sockaddr in address; 
&ddress.sin family-AF INET; 


&ddress.sin port- htons (FORT NM); 


memcpy(&address.sin addr, server- >h addr, server- >h length); 
// 建 立 连接 


connect(sockfd, &address, sizeof (address) ); 
write(sockfd, "Hello", strlen("Hello")); 


read(sockfd, buf, BUFIEN) ; 
close (sockfd) ; 


// 创 建 socket 


/发送 数据 
// 接 收 数据 
/人 关闭 连接 


示例 程序 中 报 文 发 送 的 整个 流程 如 图 2-12 所 示 。 对 于 面向 连接 的 网 络 应 用 程序 ,客户 端 


在 调用 connect 函数 与 服务 器 端 建立 连接 之 后 ,可 以 使 用 write 函数 来 发 送 数 据 。 对 于 


F socket 


来 说 可 以 从 4 种 功能 相同 但 接口 形式 不 同 的 发 送 函 数 中 任意 选择 一 个 。 因 为 系统 中 使 用 文件 
描述 符 来 表示 一 个 已 经 创建 的 socket, 所 以 允许 使 用 文件 系统 中 通用 的 write 函数 来 完成 对 数 
据 的 发 送 。 不 过 write 函数 本 身 是 为 文件 的 写 功能 而 创建 的 通用 接口 ,无 法 支持 socket 通信 时 
所 特有 的 功能 ,如 发 送 带 外 数据 等 。 另 外 3 个 socket 发 送 函 数 是 sendmsg, send 和 sendto, 这 3 


个 函数 都 是 POSIX. 1 标准 中 规定 的 BSD Socket 必须 支持 的 发 送 方法 。 


(1) sendmsg 函数 


sendmsg 函数 的 原型 前 面 已 经 介绍 过 , 它 的 参数 中 使 用 msghdr 结构 .可 以 一 次 发 送 多 
个 数据 缓冲 区 的 内 容 , 但 要 求 用 户 自行 创建 所 需 的 msghdr 结构 ,调用 的 复杂 程度 在 这 4 种 


接口 中 最 大 。 
(2) send 函数 


send 函数 与 write 函数 十 分 相似 ,在 保留 write 函数 的 三 个 参数 的 同时 ,增加 了 一 个 
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flags 参数 用 来 实现 一 些 socket 所 特有 的 功能 ,例如 设 定 MSG_OOB 标志 来 发 送 带 外 数据 。 

(3) sendto 函数 

sendto 函数 接口 的 最 大 特色 在 于 提供 了 设 定 报 文 目的 地 址 和 目的 端口 的 能 力 。 对 于 
面向 非 连接 的 socket 来 说 ,只 能 使 用 sendto 函数 来 进行 发 送 。 对 于 面向 连接 的 socket 来 
说 ,可 以 在 建立 连接 的 过 程 中 设 定 目的 地 址 和 端口 ,因而 在 发 送 后 续 报 文 时 ,无 需 再 指定 地 
址 信息 。 如 果 用 户 在 面向 连接 的 socket 上 调用 sendto 这 类 指定 发 送 目的 地 址 信息 的 接口 ， 
也 可 以 成 功 发 送 ,因为 协议 栈 并 不 会 使 用 用 户 指定 的 地 址 ;但 是 反之 ,如 果 面 向 非 连接 的 
socket 调用 省 略 目的 地 址 信息 的 接口 则 会 因为 缺少 目的 地 址 而 出 错 。 

从 图 2-12 中 可 以 看 出 ,这 4 个 发 送 接口 最 终 都 会 调用 _sock_sendmsg 函数 (__sock_ 
sendmsg 只 是 一 个 inline 函数 ,对 于 2. 4 版 本 的 内 核 来 说 ,4 个 发 送 函 数 最 终 都 会 执行 到 
sock sendmsg 函数 ) ,而 这 个 函数 接口 使 用 struct msghdr 结构 来 表示 要 发 送 的 数据 。 如 果 
应 用 程序 选择 的 发 送 函 数 是 sndmsg, 那 么 只 需要 把 位 于 用 户 态 内 存 之 中 的 msghdr 结构 
和 struct iovec 数组 拷贝 到 内 核 态 即 可 使 用 。 如 果 应 用 程序 调用 的 是 另外 3 种 发 送 函 数 ,用 
户 态 中 只 有 一 块 存放 待 发 数据 的 缓存 ,对 于 这 些 调用 流程 ,在 调用 _sock_sendmsg 函数 之 前 
都 可 以 找到 创建 并 初始 化 msghdr 结构 和 struct iovec 数组 的 代码 (具体 代码 在 sock_aio_ 
write 和 sys sendto 函数 中 )。 需 要 特别 注意 的 是 在 调用 _sock_sendmsg 函数 时 ,真正 的 发 
送 数 据 还 是 存放 在 应 用 程序 指定 的 用 户 态 缓存 之 中 。 这 些 数据 只 有 等 到 调用 tcp_sendmsg 
函数 准备 真正 发 送 报 文 时 才 会 被 拷贝 到 内 核 态 。 

注意 在 BSD socket 层 中 带 有 sys_ 前 级 的 函数 (例如 sys. send, sys. sendmsg 等 ) 都 是 
Linux 中 的 系统 调用 。 在 执行 系统 调用 之 后 就 会 转 入 内 核 态 进行 处 理 ,可 以 看 出 整个 发 送 
流程 几乎 都 是 在 内 核 态 中 完成 的 。 而 且 在 这 一 层 的 处 理 过 程 中 ,sys_write PA OH XE PRG 
£F filef op- write 调用 了 针对 socket ff AX: sock aio write, 3X E PA Zi dis £T (19 fi H] 
充分 体现 了 代码 的 多 态 特性 。 函 数 指针 的 初始 化 代码 可 以 在 创建 socket 并 为 其 分 配 文件 
描述 符 时 调用 的 sock map. fd 函数 中 找到 。 

_sock_sendmsg 图 数 本 身 没 有 做 太 多 的 处 理 , 只 是 通过 困 数 指针 sock ops sendmsg 
调用 了 inet sendmsg 函数 ,而 inet. sendmsg 函数 的 主要 工作 又 是 通过 函数 指针 sk 一 sk_ 
prot-*sendmsg 调用 tcp sendmsg 函数 .这 两 个 函数 指针 的 初始 化 代码 都 在 创建 socket 时 
调用 的 inet. create 函数 中 。sock-~>ops 指针 的 目的 是 把 BSD socket 接口 映射 到 不 同 协议 族 
的 具体 实现 上 ,通过 实际 调用 的 inet. sendmsg 函数 的 inet 前 级 可 以 看 出 示例 程序 中 使 用 的 
是 针对 TCP/IP 协议 族 的 socket 函数 ,其 他 的 协议 族 包括 ATM, IPX/SPX 等 ,它们 各 自 都 
有 对 BSD socket 接口 的 实现 。 根 据 选 用 的 具体 协议 族 , 通 过 sock->ops 指针 可 以 调用 到 正 
确 的 实现 函数 。sk 一 sk_prot 指针 的 目的 同样 是 实现 一 对 多 的 映射 ,只 是 该 映射 面向 的 是 同 
一 个 协议 族 中 不 同类 型 的 服务 ,例如 TCP/IP 协议 族 中 提供 的 面向 数据 流 ( 面 向 连接 的 
TCP 协议 ) 、 面 向 报 文 (面向 非 连接 的 UDP 协议 ) 和 原始 服务 (RAW socket) ,从 实际 调用 的 
tcp_sendmsg 函数 的 前 级 来 看 ,示例 程序 中 使 用 的 是 TCP 协议 的 处 理 函数 。 

tcp_sendmsg 是 上 层 协 议 发 送 TCP 报 文 的 接口 , 它 的 主要 功能 是 分 配 sk. buff 结构 ,并 
把 目前 还 存放 在 用 户 态 缓存 之 中 的 待 发 送 数据 拷贝 到 内 核 中 由 sk_buff 结构 指定 的 数据 区 
中 。 生 成 报 文 的 大 小 受到 TCP 最 大 段 长 度 (MSS) 的 限制 ,因此 ,一 次 发 送 的 数据 可 能 需要 
分 配 到 几 个 不 同 的 sk_buff 结构 中 ,而 且 因 为 TCP 提供 的 是 一 种 数据 流传 输 服务 ,不 需要 
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2-12 TCP 报 文 发 送 流程 示意 图 


在 报 文中 保存 数据 的 边界 ,所 以 如 果 前 一 个 sk_buff 结构 中 还 有 剩余 空间 ,可 以 先 填 满 它 ， 
如 果 不 足 再 去 申请 新 的 sk_buff 结构 。 由 于 TCP 协议 本 身 在 发 送 报 文 时 需要 考虑 流量 控 


$23 Linux 网 络 协议 栈 简介 


制 、 拥 塞 控制 . 重 传 机 制 以 及 避免 糊涂 窗口 综合 症 等 诸多 因素 ,因此 报 文 的 实际 发 送 工作 在 
经 过 调度 之 后 可 能 会 变 为 异步 的 过 程 ,这 里 不 再 分 析 该 过 程 的 实现 细节 ,在 图 2-12 中 用 空 
心 箭头 表示 这 部 分 被 省 略 的 调用 过 程 。 

TCP 报 文 的 发 送 处 理 流 程 最 终 都 要 通过 tcp_transmit_skb 函数 来 完成 TCP 报头 的 构 
造 ,并 把 报 文 交 给 下 一 层 的 发 送 函 数 来 进行 后 续 的 处 理工 作 。 这 里 需要 指出 的 是 : 因为 
TCP/IP 协议 栈 中 的 网 络 层 可 能 是 IPv4 协议 也 可 能 是 IPv6 协议 ,究竟 选择 哪 一 种 类 型 的 
发 送 函 数 需要 根据 协议 栈 的 具体 设置 来 决定 ,所 以 这 里 再 次 借助 函数 指针 tp 一 af_specific 
—queue xmit 实现 了 多 态 特性 。 

如 果 是 IPv4 协议 ,实际 调用 的 是 ip queue xmit 函数 ,该 函数 指针 的 初始 化 代码 在 创 
f socket 时 调用 的 tcp_v4_init_sock 函数 中 。ip_queue_xmit 图 数 会 为 本 机 发 送 的 IP JR x 
查找 合适 的 路 由 信息 ,然后 创建 IP 报头 并 转交 给 下 一 层 协议 进行 处 理 。 这 个 函数 中 有 以 下 
两 个 地 方 需要 说 明 : 

(1) 关于 路 由 缓存 的 使 用 

因为 由 同一 个 socket 连接 发 送 的 报 文具 有 完全 相同 的 下 一 跳 路 由 信息 ,所 以 只 有 连接 
过 程 中 的 第 一 个 报 文 需要 通过 查找 路 由 表 来 确定 下 一 跳 ,其 余 报 文 可 以 利用 路 由 缓存 来 实 
现 选 路 。 很 明显 应 该 为 每 个 连接 建立 并 维护 一 份 路 由 缓存 ,而 表示 连接 的 sock 结构 是 最 适 
合 保存 路 由 缓存 信息 的 位 置 。Linux 网 络 协议 栈 中 使 用 struct rtable 和 struct dst. entry 结 
构 来 表示 路 由 缓存 。sk_buff 所 表示 的 报 文 完 成 路 由 的 标志 是 其 中 指向 dst_entry 结构 的 指 
EF dst 指向 了 某 一 个 rtable 结构 表示 的 路 由 缓存 (注意 2. 1. 3. 1 节 介绍 过 struct rtable 的 开 
头 包含 了 一 个 dst_entry 结构 ,所 以 两 者 的 指针 可 以 进行 类 型 转换 )。sock 中 用 来 保存 路 由 
缓存 的 是 指向 struct dst_entry 的 指针 sk_dst_cache。 在 tcp_sendmsg 中 创建 skb 时 会 检查 
sock 中 是 否 存 在 路 由 缓存 ,如 果 存 在 , 则 提前 对 sk buff 中 路 由 缓存 指针 ( 即 skb 一 dst) 进 行 
初始 化 。ip_queue_xmit 会 检查 每 个 报 文 是 否 已 经 完成 了 路 由 ,对 于 还 没有 下 一 跳 信息 的 报 
文 会 调用 函数 ip. route output. flow 来 完成 选 路 工作 ,并 且 将 路 由 缓存 保存 到 该 报 文 所 属 
的 sock 结构 中 (上 述 工作 在 sk. setup. caps 函数 中 调用 _sk_dst_set 函数 完成 ) ,方便 连接 上 
的 后 续 报 文 快速 完成 路 由 。 

(2) 实现 报 文 过 滤 

因为 ip_queue_xmit 函数 是 本 机 发 送 TCP 报 文 的 必 经 之 路 ,所 以 非常 适合 安排 对 报 文 
的 检查 和 过 滤 工 作 , 因 此 Netfilter 机 制 选择 在 该 郴 数 中 放置 钧 子 函 数 点 NF_IP_LOCAL_ 
OUT ,用 来 检查 从 本 机 发 送 的 所 有 报 文 。 

ip queue xmit 函数 最 后 会 调用 dst. output 函数 ,dst_output 是 一 个 简单 的 包装 函数 ， 
其 主要 工作 是 通过 一 个 无 限 循环 来 调用 函数 指针 skb-~~dst-~output。 有 些 情况 下 ,协议 栈 
需要 在 TP 层 进行 一 些 额 外 的 处 理 ,如 增加 新 的 TP 报头 实现 隧道 功能 ,增加 IPSec 使 用 的 协 
议 头 部 等 ,这 时 需要 先 完成 这 些 额 外 的 处 理 之 后 才能 交 给 下 层 协 议 来 发 送 。 为 了 获得 更 好 
的 扩展 性 ,Linux 网 络 协议 栈 中 把 这 些 可 能 的 附加 处 理 操作 组 织 成 一 个 函数 链表 ,而 dst_ 
output 函数 在 本 质 上 就 是 遍历 这 个 由 函数 指针 组 成 的 链表 。 链 表 中 的 最 后 一 个 函数 是 ip_ 
output, 它 负责 把 报 文 交 给 下 一 层 进行 处 理 。 针 对 示例 程序 的 发 送 过 程 ,函数 指针 skb- dst 
一 output 指向 的 就 是 ip output 函数 。 

接 下 来 在 发 送 流程 上 会 依次 调用 郴 数 ip_output.ip finish output 和 ip_finish_ 
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output2。 前 两 个 函数 都 很 短 , 易 于 理解 ,其 中 ip finish output 函数 主要 是 作为 男 一 处 报 文 
过 滤 钧 子 函 数 的 放置 点 。ip_finish_output2 函数 则 是 第 3 层 发 送 函 数 与 邻居 子 系统 之 间 的 
界面 。 因 为 邻居 子 系统 使 用 的 协议 可 能 各 不 相同 ,所 以 要 再 次 使 用 函数 指针 实现 多 态 的 效 
JR. 在 Linux 中 用 来 表示 抽象 的 邻居 系统 的 结构 是 struct. neighbour. 它 定 义 在 文件 
include/net/neighbour. h P, neighbour 结构 中 确实 有 一 个 函数 指针 集合 struct neigh_ops 
* ops。 如 果 按 照 前 面 一 贯 的 做 法 ,应 该 使 用 下 面 的 方法 来 调用 发 送 函 数 : neighbor ops 
output。 但 实际 上 并 非 如 此 ,因为 neigh_ops 结构 中 的 每 个 函数 (output、connected_output 
和 hh_output) 都 是 用 于 发 送 的 函数 ,所 以 单纯 使 用 函数 指针 neighbor ops output 并 不 
能 取得 类 似 于 多 态 的 效果 。 因 此 ,设计 者 在 neighbor 结构 中 增加 了 一 个 函数 指针 output. 
把 它 作为 上 层 协议 使 用 邻居 系统 的 唯一 接口 函数 (也 是 实现 多 态 性 的 接口 ) ,各 种 邻居 协议 
根据 情况 从 neigh_ops 结构 中 选择 一 个 合适 的 发 送 函 数 赋 给 neighbor >output 指针 。 

邻居 子 系 统 在 发 送 报 文 之 前 需要 完成 以 下 两 项 任务 : 

(1) 获得 第 3 层 地 址 到 第 2 层 地 址 的 映射 关系 ,对 本 节 的 例子 来 说 就 是 IP 地 址 与 
MAC 地 址 的 映射 。 

(2) 要 创建 好 第 2 层 报头 。 

这 两 项 工作 都 可 以 通过 使 用 缓存 来 提高 处 理 效率 。 最 理想 的 情况 是 缓存 信息 中 恰好 有 
第 2 层 报头 的 缓存 ( 即 hh_cache 结构 中 的 指针 hh 不 为 空 ) ,这 时 ip_finish_output2 函数 的 
处 理 逻 辑 是 直接 将 它 拷贝 到 sk_buff 中 来 完成 报头 的 创建 ,然后 调用 hh cache 结构 中 的 函 
数 指针 hh_output( 等 价 于 调用 dst>hh 习 hh_output) 进 行 发 送 , 它 真正 指向 的 是 dev queue 
_xmit 函数 ,这 也 是 把 制作 好 的 报 文 交 给 网 络 设备 进行 发 送 的 接口 函数 ,该 函数 指针 在 创建 
第 2 层 报头 缓存 时 完成 初始 化 。 

如 果 和 暂时 没有 合适 的 第 2 层 报头 缓存 ,就 要 调用 前 面 介绍 的 邻居 子 系 统 的 发 送 接口 
neighbour>output, 这 个 指针 会 根据 第 一 项 任务 的 完成 情况 指向 不 同 的 处 理 函 数 。 简 单 来 
说 ,如 果 当 前 可 以 直接 生成 第 2 层 协 议 的 报头 , 即 协议 栈 已 经 知道 了 下 一 跳 的 TP 地 址 与 其 
MAC 地 址 的 对 应 关系 ,此 时 函数 指针 指向 neigh_connected_output, 该 函数 在 为 报 文 创建 
第 2 层 报头 之 后 ,调用 男 一 个 函数 指针 neigh- ops queue. xmitCtl dit I] dev_queue_xmit 
函数 ) 来 完成 发 送 工 作 ;否则 就 需要 借助 地 址 解析 协议 ,如 ARP。 此 时 neighbour output 
指向 neigh resolve output 函数 ,该 函数 首先 会 把 等 待 发 送 的 报 文 加 入 到 由 neighbor-arp 
queue 指向 的 队列 中 ,然后 发 送 地 址 解析 请 求 , 并 等 待 应 答 。 需 要 指出 的 是 ,无 论 报 文 是 立 
即 发 送 还 是 在 ARP 队列 中 等 待 ,函数 ip_finish_output2 都 会 向 IP 子 系统 返回 成 功 的 信号。 
因为 此 时 IP 模块 已 经 顺利 完成 了 对 该 报 文 的 处 理 , 后 续 的 发 送 工作 由 邻居 子 系统 接管 。 当 
ARP 解析 过 程 结束 后 ,邻居 子 系统 会 负责 将 报 文 从 等 待 队 列 中 移出 , 交 给 发 送 设 备 来 完成 

从 图 2-12 中 可 以 看 出 ,不 论 走 哪 一 条 路 ,最 终 都 会 调用 dev queue xmit 函数 把 要 发 送 
的 报 文 交 给 网 络 接口 设备 。 最 终 网 络 接口 设备 会 利用 驱动 程序 中 提供 的 功能 将 报 文 发 送 到 
传输 线路 上 。 

最 后 ,简单 总 结 一 下 TCP 报 文 发 送 过 程 中 对 sk. buff 的 处 理 情 况 ,如 图 2-13 所 示 。 

在 发 送 流程 中 , 当 socket 有 数据 需要 发 送 时 会 首先 向 内 核 申 请 创建 sk_buff 结构 来 表 
示 报 文 ,用 于 存放 报 文 数据 内 容 的 内 存 应 至 少 大 于 TCP 的 MSS, 这 个 过 程 的 具体 代码 可 以 
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struct sk buff 


(a) 在 tep_sendmsg 中 创建 sk_buff 


end 


A 
头 部 的 最 大 长 度 


struct sk buff. 


(b) 在 tcp. sendmsg tH 


为 各 层 报头 预 留 空间 
head 一 | head 
data data 
tail tail 
end end 
h h 
nh nh 
mac mac 
struct sk. buff struct sk. buff 
(c) fE tcp. sendmsg rfi (d) f£ tcp. transmit. skb rfr 
完成 负载 数据 的 拷贝 添加 TCP 头 部 


struct sk buff 


(e) 1E ip. queue xmitrfi 
On IPAE 


struct sk buff 


(f) (E ip. finish output2/eth headerrfi 
添加 以 太 网 头 部 


图 2-13 TCP 报 文 发 送 过 程 中 对 sk. buff 的 处 理 示意 图 


在 tcp_sendmsg 函数 中 找到 (如 图 2-13(a) 所 示 )。 在 tcp_sendmsg 函数 中 还 会 利用 skb_ 
reserve 函数 在 数据 区 中 为 各 层 报 文 头 (在 这 个 例子 中 包括 TCP、IP 和 Ethernet 报头 ) 预 留 
出 MAX_TCP_HEADER 大 小 的 空间 (如 图 2-13(b) 所 示 )。 这 个 值 的 大 小 是 考虑 到 最 坏 情 
况 下 得 到 的 结果 ,大 多 数 情况 下 该 值 都 会 大 于 实际 报头 的 大 小 。 因 为 当前 报 文 负载 的 大 小 
和 内 容 都 已 经 确定 ,所 以 在 这 里 还 会 进一步 调用 skb_put 函数 设 定 指向 报 文 负载 结尾 处 的 
指针 tail( 注 : 具体 的 调用 代码 在 skb add data 函数 中 ) ,并 完成 数据 的 拷贝 (如 图 2-13(c) 
所 示 )。 接 下 来 ,在 tcp_transmit_skb 函数 中 会 调用 以 下 代码 来 根据 TCP 报头 进行 指针 调 


整 (如 图 2-13(d) 所 示 ) : 


th= (struct tephdr* ) skb push(skb, tcp header size); 


$S 
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skb-» h.th- th; 

th- > souroe- sk > sport; 

th- > dest- sk- > dport; 

再 接 下 来 , ip queue xmit 函数 会 调用 以 下 代码 来 设 定 IP 报头 并 调整 skb 中 的 指针 情 
况 ( 如 图 2-13(e) 所 示 ): 


iph- (struct iphdr* ) skb push(skb, sizeof (struct iphdr)* (opt? opt- > aptlen:0)); 


iph-» sadir -rt-»rt src; 

iph- > daddr =i- >it dst; 

sk->m.ih | -iph; 

最 后 一 步 处 理 是 为 报 文 添加 Ethernet 帧 头 ,调整 skb 中 指针 的 代码 也 会 根据 是 否 具有 
帧 头 缓存 而 不 同 。 有 缓存 的 情况 下 会 直接 在 ip finish output2 函数 中 调用 skb_push ,而 其 
他 情况 下 都 是 通过 函数 指针 dev— hard header 来 调用 eth_header 函数 最 终 完成 对 skb_ 
push 的 间接 调用 (如 图 2-13(f) 所 示 ) ,因为 后 续 处 理 不 需要 使 用 skb 一 mac, 所 以 没有 为 这 
个 指针 进行 初始 化 。 


2.2.3 报 文 接收 过 程 


示例 程序 在 调用 write 函数 发 送 报 文 之 后 , 紧 接着 调用 read 函数 来 接收 服务 器 端 发 送 
的 报 文 , 接 下 来 就 深入 到 这 个 函数 的 内 部 ,分 析 报 文 的 接收 流程 。 与 发 送 流程 不 同 ,接收 流 
程 可 以 划分 为 从 上 到 下 和 从 下 到 上 两 个 小 的 过 程 ,这 两 部 分 通过 socket 中 的 报 文 接收 队列 
衔接 在 一 起 (如 图 2-14 所 示 )。 先 来 讨论 位 于 上 半 部 分 的 流程 。 这 一 部 分 和 前 面 介绍 的 报 
文 发 送 流程 的 开始 部 分 十 分 类 似 ,从 4 个 位 于 用 户 态 的 应 用 层 接收 函数 开始 ,执行 过 程 最 终 
都 汇集 到 _sock_recvmsg 函数 ,然后 经 过 两 次 类 似 于 C++ 中 虚拟 函数 表 (VFT) 的 处 理 , 分 别 
调用 sock_common_recvmsg 函数 (对 于 2. 4 版 本 的 内 核 来 说 ,调用 的 是 inet_recvmsg MO 
和 tcp_recvmsg 函数 。 在 tcp_recvmsg 函数 中 会 检查 sk 一 sk_receive_queue 指向 的 socket 
的 接收 队列 ,如 果 队 列 中 有 报 文 等 待 接收 , 则 把 其 中 的 数据 部 分 返回 给 用 户 进程 (即将 数据 
写 人 接收 函数 指定 缓冲 区 ,并 使 等 待 的 接收 函数 成 功 返 回 ) 。 如 果 此 时 队列 中 没有 任何 报 
文 , 则 函数 有 两 种 选择 ,要 么 立即 返回 .要 么 等 待 数 据 的 到 来 。 立 即 返 回 策略 能 够 让 应 用 程 
序 中 调用 的 接收 函数 也 即刻 返回 ,这 就 是 socket 编程 时 介绍 过 的 非 阻塞 socket; 等 待 策略 
可 以 使 应 用 程序 在 调用 接收 函数 时 ,因为 没有 数据 可 读 而 导致 所 在 进程 或 线程 进入 睡眠 状 
态 , 这 就 是 阻塞 的 socket( 同 样 的 情况 也 会 发 生 在 accept 函数 的 处 理 过 程 中 )。 当 有 新 的 报 
文 到 达 接 收 队列 后 ,内核 会 通知 (唤醒 ) 正 在 等 待 的 接收 进程 ,让 它们 把 收 到 的 数据 返回 给 对 
应 的 应 用 程序 。 

那么 网 络 协议 栈 又 是 如 何 把 收 到 的 各 种 协议 的 报 文 分 门 别 类 地 投放 到 对 应 的 socket 
接收 队列 中 的 呢 ? 这 就 是 报 文 接收 流程 的 下 半 部 分 需要 解决 的 核心 问题 。 现 在 重新 把 注意 
力 移 到 接收 报 文 的 唯一 接口 : 网 络 接口 设备 。 以 示例 程序 中 使 用 的 Ethernet 为 例 , 分 组 以 
异步 的 方式 到 达 网 卡 , 网 卡 收 到 分 组 之 后 通过 中 断 来 通知 系统 接收 并 处 理 收 到 的 分 组 ,因此 
分 组 的 接收 流程 应 该 在 网 卡 的 中 断 处 理 程序 中 完成 。 从 网 卡 收 到 分 组 开始 ,直到 把 它们 投 
递 到 对 应 socket 的 等 待 队列 中 为 止 ,需要 经 过 很 多 处 理 , 执 行 的 时 间 比 较 长 。 而 且 中 断 处 
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2-14 TOP 报 文 接收 流程 示意 图 


理 程序 为 了 简化 程序 编写 的 复杂 性 ,一 般 会 屏蔽 中 断 谋 套 。 如 果 中 断 处 理 程序 本 身 执行 时 
间 过 长 ,会 阻碍 系统 对 其 他 中 断 信号 的 处 理 , 从 而 降低 系统 的 中 断 处 理 能 力 。 
Linux 为 了 提高 中 断 系统 的 效率 将 中 断 处 理 过 程 分 为 两 部 分 : 硬件 中 断 也 称 为 中 断 处 


理 的 上 半 部 分 (top half) 和 软 中 断 也 称 为 中 断 处 理 的 下 半 部 分 (bottom half) 。 
硬件 中 断 处 理 程序 只 负责 与 硬件 有 关 的 处 理 , 这 部 分 必须 尽快 完成 ,以 便 释放 宝贵 的 硬 
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件 资源 ,提高 系统 吞吐 量 , 例 如 将 分 组 从 网 卡 上 的 缓冲 区 拷贝 到 内 核 态 的 缓存 中 等 ,不 需要 
硬件 参与 的 处 理 过 程 都 交 给 软 中 断 来 延迟 完成 。 需 要 明确 的 是 Ethernet 卡 驱动 会 在 硬件 
中 断 的 处 理 过 程 中 负责 把 收 到 的 分 组 保存 为 sk_buff 的 形式 ,然后 调用 netif_rx 函数 把 它 
交 给 系统 的 软 中 断 部 分 来 完成 。 

分 组 接收 过 程 在 软 中 断 中 的 处 理 起 点 是 net. rx. action 函数 ,这 也 是 图 2-14 表示 的 接 
收 流程 下 半 部 分 的 起 点 。net_rx_action 函数 中 最 重要 的 部 分 是 通过 函数 指针 dev— poll 来 
调用 某 个 网 络 设备 的 轮 询 函数 。 这 里 使 用 函数 指针 的 目的 是 屏蔽 不 同 设备 之 间 的 差异 , 提 
供 统一 的 处 理 接口 。 实 际 上 ,只 有 最 新 的 支持 NAPI 的 网 卡 才 支持 轮 询 操作 ,其 他 网 卡 共 同 
使 用 由 内 核 提 供 的 一 个 缺 省 处 理 函 数 : process backlog. YE PA% process backlog 中 最 重 
要 的 一 步 是 调用 netif receive skb 函数 处 理 每 一 个 已 经 被 网 卡 接收 ,但 还 在 等 待 网 络 协议 
栈 做 进一步 处 理 的 分 组 。 在 netif_receive_skb 函数 中 才 真 正 拉 开 了 处 理 各 层 报头 的 序幕 。 

由 于 Ethernet 的 帧 头 部 在 网 卡 驱 动 中 已 经 处 理 完毕 ,所 以 此 时 的 主要 任务 是 如 何 根据 
帧 头 部 中 上 一 层 协议 类 型 字段 的 值 ,把 分 组 交 给 正确 的 上 层 处 理 函 数 。 这 是 一 个 对 号 人 座 
的 过 程 。 号 码 是 上 一 层 协议 类 型 字段 的 值 , 而 Linux 内 核 协议 栈 中 用 一 个 名 为 ptype_base 
的 全 局 哈 希 表 来 表示 所 有 可 能 的 座位 ( 即 所 有 支持 的 协议 ) 。 通 过 查找 和 比较 找到 表示 对 应 
座位 的 packet type 结构 体 的 指针 。 找 到 座位 之 后 ,就 会 通过 packet type 结构 中 的 函数 指 
针 func 来 调用 对 应 的 上 层 协 议 的 处 理 函数 。 在 示例 程序 中 ,Ethernet 帧 头 部 中 上 一 层 协议 
类 型 字段 的 值 是 ETH_P_IP, 表 示 上 层 是 IP 分 组 , 则 对 应 的 处 理 函 数 是 ip_rcv。 不 难看 出 ， 
Linux 网 络 协议 栈 中 支持 的 每 一 种 第 3 层 协 议 都 必须 提供 自己 的 处 理 函 数 ,并 把 表示 该 协 
议 的 packet type 结构 体 (其 中 包括 处 理 函 数 的 指针 ) 注 册 到 全 局 喻 希 表 ptype_base 中。 

这 里 使 用 函数 指针 也 充分 体现 出 了 多 态 特 性 : 同样 的 函数 调用 形式 ,根据 报 文 协议 的 
不 同 , 而 执行 不 同 的 处 理 函 数 。 与 发 送 过 程 的 情况 类 似 , 接 收 过 程 中 也 应 该 进行 一 些 报 文 的 
检查 和 过 滤 工 作 , 因 此 Netfilter 在 ip rcv 中 设置 了 一 个 钧 子 函 数 点 ,因为 此 时 报 文 尚未 经 
过 路 由 处 理 ,无 法 判断 它 将 会 被 本 机 接收 还 是 被 继续 转发 ,所 以 该 过 滤 点 也 称 为 
PRE ROUTING 点 ,经 过 检查 点 之 后 是 dp rev finish 函数 , 它 最 主要 的 工作 是 首先 调用 
ip_route_input 函 数 决 定 该 报 文 是 由 本 机 接收 还 是 需要 转发 ,这 个 函数 同时 会 设 定 sk_buff 
中 的 dst 指针 。 如 果 是 需要 转发 的 报 文 ,就 让 skb>dst 的 input 指针 指向 ip forward 函数 ， 
并 把 skb—>dst 的 output 指针 设置 为 ip_output 函数 。 如 果 是 本 机 将 要 接收 的 报 文 ,就 把 
skb-dst 的 input 指针 设置 为 ip_local_deliver_finish PRG. 

与 发 送 流程 中 使 用 的 dst output 函数 类 似 , 接 下 来 ,接收 流程 使 用 dst. input 函数 来 遍 
历 处 理 skb>dst>input 指向 的 函数 指针 链表 ,对 于 转发 的 报 文 ,通过 skb>dst>input 指针 
调用 的 是 ip. forward RZ, Netfilter 在 该 函数 中 设置 了 一 个 检查 点 来 专门 监控 需要 转发 的 
报 文 ,在 转发 报 文 的 处 理 分 支 上 会 继续 调用 ip forward finish 和 dst. output PRIX E dst_ 
output 函数 中 又 会 通过 函数 指针 skb—>dst>output 调用 在 ip route input 函数 中 设 定 的 
ip output 函数 ,下 面 的 处 理 过 程 与 分 组 发 送 过 程 基 本 相同 。 而 对 于 本 机 接收 的 分 组 , 则 会 
通过 skb- dst input 指针 调用 ip local deliver finish 函数 。 执 行 流 程 到 达 ip local | 
deliver finish 函数 就 表示 IP 层 的 处 理 已 经 全 部 完成 ,此 时 同样 也 面临 怎样 把 分 组 交 给 正确 
的 上 层 协 议 处 理 函 数 的 问题 。 解 决策 略 还 是 对 号 人 座 。Linux 网 络 协议 栈 采用 的 是 一 个 
struct inet protocol 类 型 的 数组 inet_protos[ MAX_INET_PROTOS] 表 示 全 部 候选 上 层 协 
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DCE B PR K. inet. protocol 结构 中 定义 了 每 种 协议 的 处 理 函 数 指针 handler。 具 体 协 议 的 
选择 通过 查询 IP 报头 中 的 上 一 层 协议 字段 实现 。 具 体 的 调用 过 程 仍 然 通过 函数 指针 
handler 来 完成 。 对 于 示例 程序 而 言 ,传输 层 采 用 的 是 TCP 协议 ,所 以 实际 调用 的 处 理 函 数 
是 在 文件 net/ipv4/af net. c 中 定义 的 全 局 变量 tcp_protocol 中 设 定 的 tcp_v4_rcv 函数 。 

tcp_v4_rcv 函数 是 处 理 本 机 收 到 的 TCP 报 文 的 起 点 ,此 时 可 以 凭借 IP 协议 和 TCP Hh 
议 报 头 中 的 信息 构建 四 元 组 志 源 地 址 、 源 端口 .目的 地 址 .目的 端口 之 ,并 确定 该 报 文 所 属 的 
socket, 即 找 出 socket 对 应 的 sock 结构 。 然 后 用 对 应 的 sock 结构 指针 来 为 sk_buff 中 的 sk 
字段 进行 赋值 ,并 根据 需要 将 报 文 对 应 的 sk_buff 结构 添加 到 sock 结构 的 报 文 接收 队列 
H, EF TCP 协议 处 理 过 程 的 复杂 性 ,图 2-14 同样 用 一 个 空心 箭头 省 略 其 中 的 处 理 细节 o 
不 难 发 现 , 接 收 流程 的 下 半 部 分 在 本 质 上 是 一 个 不 断 解 复 用 的 过 程 ,根据 收 到 报 文中 所 提供 
的 信息 ,把 分 组 转发 给 对 应 的 处 理 函 数 。 至 此 分 组 接收 的 上 、 下 两 个 部 分 实现 贯通 。 

在 完成 对 TCP 报 文 接收 处 理 流程 的 介绍 之 后 ,再 次 对 该 过 程 中 对 sk_buff 的 处 理 方法 
进行 总 结 ,如 图 2-15 所 示 。 


(a) 在 eth_type_trans 中 (b) 在 netif_receive_skb 中 
处 理 mac fll data 指 针 处 理 nh 和 data 指 针 


struct sk buff struct sk buff 


(c) 在 ip. local deliver finish rtt (d) fÉ tcp. rcv. established r1 
处 理 h 和 data 指 针 处 理 data 指 针 


图 2-15 TCP 报 文 接收 过 程 中 对 sk. buff 的 处 理 示 意图 


接收 流程 中 ,网 络 设备 在 收 到 报 文 后 为 其 生成 对 应 的 skb 结构 ,这 一 操作 通常 在 网 卡 的 
驱动 程序 中 完成 。 对 于 Ethernet 卡 来 说 ,驱动 程序 会 调用 eth_type_trans 函数 完成 下 面 两 
步 操作 : 


sko- > mac.raw- skb- > data; 
skb pull(skb,dev- > hard header len); 
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此 时 skb— mac 指向 了 Ethernet 的 帧 头 ,skb->~data 指向 IP 报头 。 而 在 netif_receive_ 
skb 中 ,通过 skb—>h. raw = skb-nh. raw=skb>data; 使 得 skb—>nh. iphdr 指向 IP 报头 。 
这 样 , 网 络 协议 栈 在 接 下 来 分 析 和 处 理 IP 报头 时 ,可 以 方便 地 使 用 这 个 指针 来 访问 报头 中 
的 各 个 字段 。 如 果 处 理 的 是 发 给 本 机 的 报 文 , 则 会 调用 ip local deliver finish 函数 ,并 在 其 
中 执行 下 面 两 步 操作 : 

. skb pull (sk, ihl); 

sko- > h.raw- skb- > data; 

此 时 skb-=h tephdr 恰好 指向 TCP 报头 开始 的 地 方 ,最 后 经 过 对 TCP 报头 的 处 理 之 
后 在 tcp rcv. established 函数 中 调用 _skb_pull(skb,tcp_header_len); 这 标志 着 网 络 协议 
栈 完 成 了 对 报头 的 处 理 (应 用 层 协议 的 报头 除外 ) ,其 余 的 数据 应 该 交 给 用 户 程序 进行 下 一 
步 处 理 。 在 此 之 后 ,协议 栈 会 将 skb 加 入 到 sk 结构 的 sk receive queue 队列 中 ,并且 skb—> 
data 指向 报 文 的 数据 负载 部 分 ,在 报 文 接收 流程 上 半 部 分 调用 的 tcp_recvmsg 函数 负责 将 
报 文中 的 数据 负载 拷贝 到 用 户 程序 的 缓冲 区 中 ,然后 清除 该 skb 结构 。 

理解 了 报 文 发 送 和 接收 的 基本 流程 及 其 中 用 到 的 各 种 数据 结构 之 后 ,可 以 很 容易 为 协 
议 栈 添加 一 种 新 的 协议 ,有 兴趣 的 读者 可 以 把 这 一 点 作为 一 个 扩展 和 提高 的 练习 。 


第 3X 
基于 DES 加 密 的 TCP 聊 天 程序 


3.1 本 章 训练 目的 与 要 求 


DES(Data Encryption Standard) 算 法 是 一 种 典型 的 对 称 分 组 加 密 算法 ,也 是 应 用 密码 
学 中 最 基本 的 加 密 算法 之 一 ,目前 广泛 应 用 于 网 络 通信 加 密 、 数 据 存 储 加 密 \ 口 令 与 访问 
控制 系统 之 中 。 掌 握 DES 算法 在 网 络 通信 中 的 应 用 对 于 理解 对 称 加 密 算法 非常 有 益 。 
本 章 以 加 密 TCP 聊天 程序 为 任务 ,研究 基于 DES 的 通信 加 密 应 用 软件 的 设计 与 编程 
方法 。 

本 章 训 练 的 目的 是 : 

(1) 理解 对 称 加 密 算法 DES 的 基本 工作 原理 。 

(2) 掌握 将 对 称 加 密 DES 算法 应 用 于 网 络 通信 的 设计 与 软件 编程 的 基本 方法 。 

(3) 掌握 Linux 操作 系统 socket 编程 的 基本 方法 。 

本 章 训练 的 要 求 是 ， 

(1) 利用 socket 编写 一 个 TCP 聊天 程序 。 

(2) 通信 内 容 经 过 DES 加 密 与 解密 。 


3.2 相关 背景 知识 


3.2.1 DES 算法 的 历史 


随 着 计算 机 在 通信 中 的 广泛 应 用 ,社会 对 信息 加 密 产品 标准 化 的 要 求 日 益 迫 切 。1973 
年 ,美国 国家 标准 局 NBS 公开 征集 国家 密码 标准 。1974 年 ,IBM 公司 向 NBS 提交 了 由 
Tuchman 博士 领导 的 研究 小 组 设计 、 改 进 的 Lucifer 算法 。 美 国 国家 安全 局 NSA 组 织 专家 
对 该 算法 的 安全 性 进行 评估 后 ,于 1976 年 11 月 确定 将 其 作为 联邦 数据 加 密 标准 ,授权 在 非 
机 密 的 政府 通信 中 使 用 。DES 于 1977 年 正式 成 为 标准 ,一 直 在 美国 政府 .军队 中 广泛 使 
用 。10 年 之 后 的 1988 年 里 根 政府 宣布 DES 算法 服役 期 满 , 转 为 民用 。 后 来 又 被 美国 商界 
和 世界 其 他 国家 广泛 采用 。NSA 宣布 每 隔 5 年 对 DES 重新 审议 一 次 ,以 确定 其 是 否 还 适 
合 继续 作为 联邦 标准 。1994 年 1 月 ,NSA 宣布 DES 的 使 用 寿命 延续 到 1998 年 。 

1984 年 美国 总 统 签署 145 号 国家 安全 决策 令 (NSDD) ,命令 NSA 着 手 发 展 新 的 密码 标 
WE, 2001 年 ,高 级 加 密 标准 AES 取代 DES 成 为 了 新 的 密码 标准 。 

虽然 DES 已 不 再 作为 数据 加 密 标准 ,但 是 DES 算法 仍然 是 世界 很 多 组 织 采用 的 基本 
密码 标准 ,广泛 地 应 用 于 网 络 通信 的 数据 加 密 、 数 据 存储 加 密 ` 口 令 与 访问 控制 系统 之 中 。 
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研究 DES 算法 的 设计 思想 与 应 用 技术 ,有 助 于 读者 深入 理解 分 组 密码 的 设计 方法 ,掌握 分 
组 密码 在 网 络 通信 中 应 用 的 基本 原理 、 设 计 与 实现 技术 。 


3.2.2 DES 算法 的 主要 特点 


DES 算法 的 特点 可 以 归纳 为 以 下 几 点 : 

(D DES 是 一 种 对 称 分 组 密码 算法 。 明 文 分 组 长 度 为 64bit, 密 文 分 组 长 度 也 是 64bit。 

(2) 加 密 过 程 要 经 过 16 圈 选 代 。 初 始 密 钥 长 度 为 64bit, 但 其 中 有 8 bit 奇偶 校 验 位 , 因 
此 有 效 密 钥 长 度 是 56bit; 子 密 钥 生成 算法 产生 16 个 48bit 的 子 密 钥 ,在 16 圈 迭 代 中 使 用 。 

(3) 解密 与 加 密 采用 相同 的 算法 ,并 且 所 使 用 的 密 钥 也 相同 ,只 是 各 个 子 密 钥 的 使 用 顺 
序 不 同 。 

(4) DES 算法 的 全 部 细节 都 是 公开 的 ,其 安全 性 完全 依赖 于 密 钥 的 保密 。 


3.2.3 DES 算法 的 基本 内 容 
DES 算法 包括 初始 置换 IP、 逆 初始 置换 TP 16 圈 迭 代 以 及 子 密 钥 生成 算法 。 


1. 初始 置换 IP 


将 64bit 的 明文 重新 排列 ,而 后 分 成 左右 两 块 ,每 块 32bit, 分 别 用 Lo HIR, os. IP E 
换 表 如 表 3-1 所 示 。 通 过 对 该 表 进行 观察 可 以 发 现 其 中 相 邻 两 列 的 元 素 位 置 号 数 相差 8 ,前 
32 个 元 素 均 为 偶数 号 码 ,后 32 个 均 为 奇数 号 码 ,这 样 的 置换 相当 于 将 明文 的 各 字 节 按 列 写 
出 ,各 列 经 过 偶 采 样 和 奇 采样 置换 后 ,再 对 其 进行 道 序 排列 ,将 阵 中 元 素 按 行 读 出 以 便 构成 
置换 的 输出 。 


表 3-1 PERR 
58 50 42 34 26 18 10 
60 52 44 36 28 20 12 4 
62 54 46 38 30 22 14 6 
64 56 48 40 32 24 16 8 
57 49 41 33 25 17 9 1 
59 51 43 35 27 19 11 3 
61 53 45 37 29 21 13 5 
63 55 47 39 31 23 15 ? 


2. 逆 初 始 置换 IP 


在 16 圈 和 迭代 之 后 ,将 左右 两 端 合 并 为 64bit, 进 行道 初始 置换 P ,得 到 输出 的 64bit 
密 文 ,如 表 3-2 所 示 。 
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表 3-2 逆 初 始 置换 表 


40 8 48 16 56 24 64 32 
39 T 47 15 55 23 63 31 
38 6 46 14 54 22 62 30 
37 5 45 13 53 21 61 29 
36 4 44 12 52 20 60 28 
35 3 43 11 51 19 59 27 
34 2 42 10 50 18 58 26 
33 1 41 9 49 17 57 25 


输出 的 64bit 为 表 中 元 素 按 行 读 出 的 结果 。 
IP 和 IP-: 的 输入 与 输出 是 已 知 的 一 一 对 应 关系 ,它们 的 作用 在 于 打 乱 原来 输入 的 
ASCII 码 顺序 ,并 将 原来 明文 的 校 验 位 ps , pis «t pa 2828 IP 输出 的 一 个 字 节 。 


3. 16 BE Ç 


16 圈 迭 代 是 DES 算法 的 核心 部 分 。 将 经 过 IP 置换 后 的 数据 分 成 32bit 的 左右 两 段 ， 
进行 16 圈 迭 代 , 每 轮 迭 代 只 对 右边 的 32bit 进行 一 系列 的 加 密 变 换 , 在 一 轮 加 密 变 换 结束 
时 ,将 左边 的 32bit 与 右边 进行 异 或 后 得 到 的 32bit, 作 为 下 一 轮 迭 代 时 右边 的 段 ,并 将 这 轮 
迭代 中 的 右边 段 未 经 任何 加 密 变换 时 的 初始 值 直接 作为 下 一 轮 和 迭代 时 左边 的 段 ,这 需要 在 
每 轮 迭 代 开始 时 , 先 将 右边 段 保存 一 个 副本 ,以 便 在 该 轮 迭 代 结 束 时 ,将 该 副本 直接 赋值 给 
下 一 轮 迭 代 的 左边 段 。 在 每 轮 迭 代 时 ,右边 的 数据 段 要 经 过 的 加 密 运算 包括 选择 扩展 运算 
E、 密 钥 加 运算 .选择 压缩 运算 S 和 置换 P, 这 些 变换 合 称 为 f 函数 。 

CD 选择 扩展 运算 

选择 扩展 运算 (也 称 为 下 盒 ) 的 目的 是 将 输入 的 右边 32bit 扩展 成 为 48bit 输出 ,其 变换 
表 如 表 3-3 所 示 。 置 换 结果 按 行 输出 的 结果 即 为 密 钥 加 运算 48bit 的 输入 。 

表 3-3 选择 扩展 运算 变换 表 


32 £ 2 3 4 5 
4 5 6 7 8 9 
8 9 10 11 12 13 
12 13 14 15 16 17 
16 g? 18 19 20 21 
20 21 22 23 24 25 
24 25 26 27 28 29 
28 29 30 31 32 1 
(2) 密 钥 加 运算 


密 钥 加 运算 ,是 将 选择 扩展 运算 输出 的 48bit 作为 输入 ,与 48bit 的 子 密 钥 进 行 异 或 运 
TE , 异 或 的 结果 作为 选择 压缩 运算 (S 盒 ) 的 输入 。 
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(3) 选择 压缩 运算 

选择 压缩 运算 (S 盒 ) 是 DES 算法 中 唯一 的 非 线性 部 分 , 它 是 一 个 查 表 运 算 ,共有 8 张 
非 线性 的 变换 表 , 如 表 3-4 ER 3-11 所 示 ,每 张 表 的 输入 为 6bit ,输出 为 4bit。 在 查 表 之 前 ， 
将 密 钥 加 运算 的 输出 作为 48bit 的 输入 ,将 其 分 为 8 组 ,每 组 6bit, 分 别 进 入 8 个 S 盒 进行 运 
算 , 得 出 32bit 的 输出 结果 作为 置换 运算 的 输入 。 


表 3-4 选择 压缩 运算 变换 表 1 


1 2 3 4 5 6 7 8 
1-8 Oxe 0x0 0x4 Oxf Oxd 0x7 Oxl 0x4 
9-16 0x2 Oxe Oxf 0x2 Oxb Oxd Oxb Oxe 
17-24 0x3 Oxa Oxa 0x6 0x6 Oxc Oxc Oxb 
25-32 0x5 0x9 0x9 0x5 0x0 0x3 0x7 0x8 
33-40 0x4 Oxf Oxl Oxc Oxe 0x8 0x8 0x2 
41-48 0xd 0x4 0x6 0x9 0x2 Oxl Oxb 0x7 
49-56 Oxf 0x5 Oxc Oxb 0x9 0x3 0x7 Oxe 
57-64 0x3 Oxa Oxa 0x0 0x5 0x6 0x0 Oxd 


1 2 3 4 5 6 8 
1-8 Oxf 0x3 Oxl Oxd 0x8 0x4 Oxe 0x7 
9-16 0x6 Oxf Oxb 0x2 0x3 0x8 0x4 Oxf 
17-24 0x9 Oxc 0x7 0x0 0x2 Oxl Oxd Oxa 
25-32 Oxc 0x6 0x0 0x9 0x5 Oxb Oxa 0x5 
33-40 0x0 0xd Oxe 0x8 0x7 Oxa Oxb Oxl 
41-48 Oxa 0x3 0x4 Oxf Oxd Ox4 Oxl 0x2 
49-56 0x5 Oxb 0x8 0x6 Oxc Ox7 0x6 Oxc 
57-64 0x9 0x0 0x3 0x5 0x2 Oxe Oxf 0x9 


1 2 3 4 5 6 i 8 
1-8 Oxa Oxd 0x0 0x7 0x9 0x0 Oxe 0x9 
9-16 0x6 0x3 0x3 0x4 Oxf 0x6 0x5 Oxa 
17-24 Oxl 0x2 Oxd 0x8 Oxc 0x5 0x7 0xe 
25-32 0xb Oxc 0x4 Oxb 0x2 Oxf 0x8 Oxl 
33-40 Oxd Oxl 0x6 Oxa 0x4 Oxd 0x9 0x0 
41-48 0x8 0x6 Oxf 0x9 0x3 0x8 0x0 0x7 
49-56 Oxb Ox4 Oxl Oxf 0x2 Oxe Oxc 0x3 


57-64 0x5 Oxb Oxa 0x5 0xe 0x2 0x7 Oxc 
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表 3-7 选择 压缩 运算 变换 表 4 


1 2 3 4 5 6 7 8 
1-8 0x7 Oxd Oxd 0x8 Oxe Oxb 0x3 0x5 
9-16 0x0 0x6 0x6 Oxf 0x9 0x0 Oxa 0x3 
17-24 Oxl 0x4 0x2 0x7 0x8 0x2 0x5 Oxc 
25-32 Oxb Oxl Oxc Oxa Ox4 Oxe Oxf 0x9 
33-40 Oxa 0x3 0x6 Oxf 0x9 0x0 0x0 0x6 
41-48 Oxc 0xa 0xb Oxa 0x7 Oxd Oxd 0x8 
49-56 Oxf 0x9 Oxl 0x4 0x3 0x5 Oxe Oxb 
57-64 0x5 Oxc 0x2 0x7 0x8 0x2 0x4 0xe 


1 2 3 4 5 6 7 8 
1-8 0x2 Oxe Oxc Oxb 0x4 0x2 Oxl Oxc 
9-16 0x7 0x4 Oxa 0x7 Oxb Oxd 0x6 Oxl 
17-24 0x8 0x5 0x5 0x0 0x3 Oxf Oxf Oxa 
25-32 Oxd 0x3 0x0 0x9 Oxe 0x8 0x9 0x6 
33-40 0x4 Oxb 0x2 0x8 Oxl Oxc Oxb 0x7 
41-48 Oxa Oxl Oxd Oxe 0x7 0x2 0x8 Oxd 
49-56 Oxf 0x6 0x9 Oxf Oxc 0x0 0x5 0x9 
57-64 0x6 Oxa 0x3 0x4 0x0 0x5 Oxe Ox3 


1 2 3 4 5 6 7 8 
1-8 Oxc Oxa Oxl Oxf Oxa 0x4 Oxf 0x2 
9-16 0x9 0x7 0x2 Oxc 0x6 0x9 0x8 0x5 
17-24 0x0 0x6 Oxd Oxl 0x3 Oxd 0x4 Oxe 
25-32 Oxe 0x0 0x7 Oxb 0x5 0x3 Oxb 0x8 
33-40 0x9 0x4 Oxe 0x3 Oxf 0x2 0x5 Oxc 
41-48 0x2 0x9 0x8 0x5 Oxc Oxf 0x3 Oxa 
49-56 0x7 Oxb 0x0 Oxe 0x4 Oxl Oxa 0x7 


57-64 Oxl 0x6 Oxd 0x0 Oxb 0x8 0x6 Oxd 
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表 3-10 选择 压缩 运算 变换 表 7 


1 2 3 4 5 6 7 8 
1-8 0x4 Oxd Oxb 0x0 0x2 Oxb Oxe 0x7 
9-16 Oxf 0x4 0x0 0x9 0x8 Oxl Oxd Oxa 
17-24 0x3 Oxe Oxc 0x3 0x9 0x5 0x7 Oxc 
25-32 0x5 0x2 Oxa Oxf 0x6 0x8 Oxl 0x6 
33-40 Oxl 0x6 0x4 Oxb Oxb Oxd Oxd Ox8 
41-48 Oxc Oxl 0x3 0x4 0x7 Oxa Oxe 0x7 
49-56 Oxa 0x9 Oxf 0x5 0x6 0x0 0x8 Oxf 
57-64 0x0 Oxe 0x5 0x2 0x9 0x3 0x2 Oxc 


表 3-11 选择 压缩 运算 变换 表 8 


1 2 3 4 5 6 T 8 
1-8 Oxd Oxl 0x2 Oxf 0x8 Oxd Ox4 0x8 
9-16 0x6 0xa Oxf 0x3 Oxb 0x7 Oxl 0x4 
17-24 Oxa Oxc 0x9 0x5 0x3 0x6 Oxe Oxb 
25-32 0x5 0x0 0x0 Oxe Oxc 0x9 0x7 0x2 
33-40 0x7 0x2 Oxb Oxl Ox4 Oxe Oxl 0x7 
41-48 0x9 0x4 Oxc 0xa 0xe 0x8 0x2 0xd 
49-56 0x0 Oxf 0x6 Oxc 0xa 0x9 0xd 0x0 
57-64 Oxf 0x3 0x3 0x5 0x5 0x6 0x8 Oxb 


S 盒 算法 流程 如 下 。 假 设 输入 的 48bit Jg Ri R; R; Rz Ra ,需要 将 其 转换 为 32bit fii. 
先 把 输入 值 视 为 由 8 个 6bit 的 二 进 制 块 组 成 ,如 下 所 示 。 


8781826584658: R KR EIE 
b-bbbhbhbbk-RRRR;R; Ro 
CŒ Q Q G G O = R; Ri Ris Rie E; Ris 
d-d d dididid- Rs Ro Ea Rz RaRa 
6766666 = Rs Pos Rz Ks Rs Roo 
£= fi fo fs f, fs f;— Ra Rez Res Ros Pes Fac 
G-G.G: G gi Ge Re Re Rs RR Ro 
he hihohsh hohe Rs Ra Eas Re Ry Es 


其 中 a、b、…、h 都 是 6 位 , 故 其 十 进 制 值 范围 为 0~63, 将 转换 后 的 十 进 制 数 值 加 一 与 
对 应 表 中 的 十 六 进 制 数值 对 应 , 查 表 得 到 8 个 4bit 的 结果 ,将 其 串 在 一 起 的 32bit 结果 作为 
置换 运算 的 输入 。 其 中 ,a 对 应 表 3-4. b 对 应 表 3-5,c 对 应 表 3-6. d 对 应 表 3-7,e 对 应 
K 3-8,f 对 应 表 3-9,g 对 应 表 3-10,h 对 应 表 3-11。 
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例如 : 

a. a 二 31, 则 到 表 3-4 中 找到 32 的 位 置 , 把 对 应 的 结果 0x8 赋 给 a, 

b. d 二 52, 则 到 表 3-7 中 找到 53 的 位 置 , 把 对 应 的 结果 0x3 赋 给 d. 

c.g 二 15, 则 到 表 3-10 中 找到 16 的 位 置 , 把 对 应 的 结果 Oxa 赋 给 go 

这 里 需要 说 明 ,有些 教材 在 数据 压缩 这 一 步 所 采用 的 方法 与 本 章 不 同 , 但 最 终 的 结果 是 
相同 的 。 

(4) 置换 运算 

置换 运算 P 是 一 个 32bit 的 换 位 运算 ,对 选择 压缩 运算 输出 的 32bit 数据 按 表 3-12 进 
行 换 位 。 将 数据 Ri Re Rz n Ra Rs 转换 成 为 Ris Ri Roo% Ri Ros o 


表 3-12 置换 运算 变换 表 


16 T 20 21 29 12 28 17 
1 15 23 26 5 18 31 10 
2 8 24 14 32 27 3 9 
19 13 30 6 22 11 4 25 


至 此 ,最 终 获得 的 32bit ZE, BIOS ike E (C09 h. quf h AAY 32bit 进行 异 或 
作为 下 一 轮 的 右边 段 ,进行 加 密 运算 前 的 原始 的 右边 段 作 为 下 一 轮 的 左边 段 。 

加 密 过 程 的 流程 如 图 3-1 Bran o 

HP, iR, K SP(SEŒER)^K)), R 为 某 一 轮 迭 代 的 右边 段 ,K 为 该 轮 密 钥 ,E 为 选择 扩 
展 运算 ,S 为 选择 压缩 运算 P 为 置换 运算 。 


4. 子 密 钥 的 生成 


64bit 初始 密 钥 经 过 置换 选择 PC-1、 循 环 左 移 运 算 LS、 置 换 选择 PC-2 ,产生 16 EER 
所 用 到 的 子 密 钥 k. 。 初 始 密 钥 的 第 8.16.24.32.40.48.56.64 位 是 奇偶 校 验 位 ,其 余 56 位 
为 有 效 位 。 下 面 以 第 N 轮子 密 钥 的 产生 为 例 进行 说 明 。 

(1) 置换 选择 PC-1 

置换 选择 PC-1 只 在 第 一 轮子 密 钥 的 产生 过 程 中 需要 使 用 , 它 的 目的 是 从 64bit 初始 密 
钥 中 选 出 56bit 有 效 位 。 选 择 的 过 程 是 一 个 查 表 过 程 , 如 表 3-13 和 表 3-14 Bron ,输出 的 
56bit 被 分 为 两 组 ,每 组 28bit ,分别 进入 C 寄存 器 ( 查 表 3-13 的 结果 ) 和 D 寄存 器 ( 查 表 3-14 
的 结果 ) 中 ,准备 进行 循环 左 移 。 


表 3-13 密 钥 置换 选择 PC-1 进入 C 寄存 器 


57 49 41 33 25 17 9 
1 58 50 42 34 26 18 
10 2 59 51 43 35 27 


19 11 3 60 50 44 36 
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KiKis 


Ry-Lu^f( Ru K;;) js 


64bits 密 文 y 


3-1 DES 加 密 流程 图 


表 3-14” 密 钥 置 换 选 择 PC-1 进入 D 寄存 器 


63 55 47 39 31 23 15 
7 62 54 46 38 30 22 
14 6 61 53 45 37 29 
21 13 5 28 20 12 4 
(2) 循环 左 移 LS 


此 轮 密 钥 的 产生 所 需要 循环 左 移 的 位 数 即 为 表 3-15 中 的 第 N 个 元 素 ( 首 元 素 为 第 一 
个 )。C.D 寄存 器 中 的 28bit 经 过 循环 左 移 后 ,拼接 为 56bit 作为 此 轮 置 换 选择 PC-2 的 输 
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入 ,同时 也 作为 第 N 十 1 轮子 密 钥 循环 左 移 的 输入 。 
R35 LI EE EE 


1 


1 


1 


2 


(3) 置换 选择 PC-2 
置换 选择 PC-2 将 输入 的 56bit 中 的 第 9,18,22,25,35,38,43,54 位 删 去 ,将 其 余 位 置 
按照 表 3-16 置换 位 置 ,输出 48bit ,作为 第 N 轮 的 子 密 钥 。 


X316 密 钥 置换 选择 PC-2 


14 17 11 24 1 5 3 28 
15 6 21 10 23 19 12 4 
26 8 16 7 27 20 13 2 
41 52 31 37 47 55 30 40 
51 45 33 48 44 49 39 56 
34 53 46 42 50 36 29 32 


生成 16 轮子 密 钥 的 流程 如 图 3-2 所 示 。 


原始 Key 
PC-1 
56bit 
28bit i i 28bit 
C0 D0 
LS1 LS1 
K1(48bit 
CI = DI -(1c2) I 2 
d. : 
LS2 LS2 
K2(48bit 
C2 = D2 -(1c2) l 2 
LS3 LS3 
T 
' ' 
' ' 
1 1 
LS16 LS16 
K16(48bit 
C16 = DI6 -(12) : 2 


3-2 DES 子 密 钥 生成 流程 图 
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3.2.4 TCP 协议 


TCP 协议 是 一 种 面向 连接 ,面向 字 节 流 的 可 靠 传 输 层 协议 。 两 台 采 用 TCP 协议 通信 
的 计算 机 首先 要 建立 TCP 连接 。TCP 协议 以 它 自己 的 方式 缓存 数据 ,缓存 过 程 对 程序 员 
和 用 户 是 透明 的 。TCP 协议 采用 * 撒 带 确 认 (piggybacking ACK)” 的 方法 ,允许 双方 同时 发 
送 数据 。TCP 规定 了 报 文 段 的 最 大 报 文 段 长 度 (MSS) ,默认 的 MSS 值 为 536 PEW. 

TCP 报头 的 固定 长 度 是 20 个 字 节 ,如 果 使 用 一 些 选项 ,TCP 报头 的 最 大 长 度 为 60 个 
字 节 。TCP 报头 的 结构 如 图 3-3 所 示 。TCP 报头 的 各 字段 依次 为 : 

CD 源 端 口 : 16 位 ,本 地 TCP 端口 号 。 

(2) 目的 地 端口 : 16 位 ,目的 TCP 端口 号 。 

(3) 序号 : 32 位 ,用 来 跟踪 发 送 报 文字 节 顺 序 的 序号 。 

(4) 确认 编号 : 32 位 ,表示 已 经 正确 接收 字 节 的 序号 。 

O) RAKE: 4 位 ,表示 以 4 个 字 节 为 单位 的 报头 长 度 。 如 果 不 使 用 选项 ,报头 长 度 
值 为 5。 

(6) 保留 : 6 位 , 留 做 以 后 使 用 。 

(7) 标记 : 6 位 ,每 一 位 标记 都 有 具体 的 含义 。 

a. URG: 紧急 字段 指针 。 如 果 为 1, 此 时 TCP 协议 报头 结构 中 的 紧急 指针 有 效 ,表示 
数据 包 中 包含 紧急 数据 。 

b. ACK; 确认 标志 位 。 如 果 为 1, 表示 包 中 的 确认 号 有 效 。 

c. PSH: 推送 功能 。 如 果 为 1, 表 示 接 收 端 应 尽快 将 数据 传送 给 应 用 层 。 

d. RST: 重 置 位 ,用 来 复位 一 个 连接 。RST 标志 置 位 的 数据 包 称 为 复位 包 。 一 般 情况 
下 ,如果 TCP 收 到 的 一 个 分 段 明显 不 属于 该 主机 上 的 任何 一 个 连接 , 则 向 远 端 发 送 一 个 复 
位 包 。 

e, SYN: 用 来 建立 连接 ,让 连接 双方 同步 的 序列 号 。 如 果 SYN=1 H ACK—0. RIR% 
据 包 为 连接 请 求 ;如 果 SYN—1 H ACK==1. 则 表示 接受 连接 。 

f. FIN: 表示 发 送 端 已 经 没有 数据 要 求 传输 了 ,请 求 释放 连接 。 


TCP 头 部 数据 
jA 1516 BE 
源 端口 地 址 目的 端口 地 址 
序号 
确认 号 

报头 长 度 | 保留 |URG|ACK|PSHIRSTISYN|EIN| 窗口 大 小 

校 验 和 紧急 指针 

选项 及 填充 


图 3-3 TCP 数据 包 格 式 
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g. 窗口 尺寸 : 16 位 ,表示 要 求 对 方 必须 维持 的 窗口 字 节 数 。 

h. 校 验 和 : 16 位 ,TCP 报头 和 数据 的 校 验 和 。 

i 应急 指针 : 16 位 ,指向 跟 在 URG 数据 后 面 的 数据 的 序列 号 的 偏 移 值 。 

j. 选项 : MSS 窗口 比例 等 。 

k. TCP 连接 的 两 端 使 用 两 对 TP 地 址 和 端口 识别 这 个 连接 ,并 且 向 监听 这 个 端口 的 应 
用 程序 发 送 数据 。 


3.2.5 BRF 


套 接 字 (socket) 是 应 用 层 与 TCP/IP 协议 族 通信 的 中 间 软 件 抽象 层 , 它 是 一 组 接口 。 
它 把 复杂 的 TCP/IP 协议 族 隐 藏 在 socket 接口 的 背后 ,通过 调用 简单 的 socket 函数 完成 特 
定 协议 的 数据 传输 任务 。TCP/IP 提供 了 3 种 类 型 的 套 接 字 : 

(1) 流 式 套 接 字 (SOCK_STREAM) 

流 式 套 接 字 是 面向 连接 的 、 可 靠 的 数据 传输 服务 ,可 保证 无 差错 、 无 重复 且 按 发 送 顺序 
提交 给 接收 方 。 流 式 套 接 字 在 传输 层 使 用 TCP 协议 。 

(2) 数据 报 套 接 字 (SOCK_DGRAMD) 

数据 报 套 接 字 提 供 无 连接 服务 ,数据 以 独立 的 数据 报 形式 被 传送 ,并 且 在 传输 过 程 中 没 
有 差错 控制 和 流量 控制 ,数据 可 能 丢失 、 重 复 或 者 乱 序 。 数 据 报 套 接 字 在 传输 层 使 用 UDP 
协议 。 

(3) 原始 套 接 字 (SOCK_RAW) 

原始 套 接 字 人 允许 对 较 低层 协议 (如 网 络 层 的 IP, ICMP) 直接 进 行 访问 。 用 于 实现 自己 
定制 的 协议 或 对 数据 报 作 较 低层 的 控制 。 

在 本 章 的 编程 中 使 用 的 是 流 式 套 接 字 。 


3.2.6 TCP 通信 相关 函数 介绍 


Linux 系统 通过 套 接 字 (socket) 来 进行 网 络 编程 。 网 络 程序 通过 socket WIL: fl JLA PR 
数 的 调用 ,会 返回 一 个 通信 的 文件 描述 符 ,程序 员 可 以 将 这 个 描述 符 看 成 普通 的 文件 描述 符 
来 操作 ,通过 对 描述 符 的 读 写 操作 可 以 实现 网 络 中 计算 机 之 间 的 数据 传输 。 这 充分 体现 出 
Linux 操作 系统 的 设备 无 关 性 的 优点 。 

下 面 介绍 本 章 编程 训练 将 用 到 的 几 个 Linux 常用 的 套 接 字 函 数 。 

1. socket 函数 

int socket (int domain, int type, int protocol); 

该 函数 用 于 创建 通信 的 套 接 字 ,并 返回 该 套 接 字 的 文件 描述 符 。 

参数 说 明 : 

(1) domain; 说 明 网 络 程序 所 在 的 主机 采用 的 通信 协议 (AF_UNIX 和 AF. INET 等 ) 。 
AF UNIX 只 能 够 用 于 单一 的 UNIX 系统 进程 间 通 信和 ,而 AF_INET 针对 的 是 Internet, 因 
而 可 以 允许 在 远程 主机 之 间 实 现 通信 。 

(2) type: 用 于 指定 套 接 字 的 类 型 。 

(3) protocol; 用 于 指定 套 接 字 所 使 用 的 通信 协议 。 正 常情 况 下 ,对 于 给 定 的 协议 族 ， 
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只 有 单一 的 协议 支持 特定 的 套 接 字 类 型 ,所 以 一 般 将 protocol 参数 设置 为 0。 
2. bind 函数 


int bind (int sockfd, const struct sockaddr * my addr, socklen t adidrlen); 


该 函数 用 于 将 套 接 字 与 指定 端口 的 相连 。 
参数 说 明 : 
(1) sockfd: 调用 socket 函数 后 返回 的 文件 描述 符 。 
(2) addrlen: sockaddr 结构 的 长 度 。 
(3) my_addr: 一 个 指向 sockaddr 结构 体 的 指针 。 
sockaddr 结构 体 的 定义 如 下 。 
struct sockaddr{ 

unsigned short sa family; 

char sa datal14]; 
J; 
不 过 由 于 系统 的 兼容 性 ,一般 不 用 这 个 头 文件 ,而 使 用 另外 一 个 结构 (struct sockaddr_ 

in) 来 代替 。sockaddr_in 的 定义 如 下 。 


struct sockaddr in( 


unsigned short sin family; 
unsigned short int sin port; 
struct in addr sin addr; 
unsigned char sin zero[8]; 


1 

这 里 主要 使 用 Internet. Bf EA sin. family 一 般 为 AF_INET,sin_addr 设置 为 INADDR _ 
ANY 表示 可 以 和 任何 主机 通信 ,sin_port 是 需要 监听 的 端口 号 ,sin_zero[ 8] 是 用 来 填充 的 。 
bind 函数 将 本 地 的 端口 同 socket 返回 的 文件 描述 符 捆绑 在 一 起 。 

此 函数 成 功 返 回 0, 失 败 返 回 一 1, 并 设置 errno 变量 。 

3. listen 函数 

该 函数 用 于 实现 服务 器 等 待 客户 端 请 求 的 功能 。 

参数 说 明 : 

(1) sockfd: 经 过 bind 操作 的 文件 描述 符 。 

(2) backlog: 设置 请 求 队列 的 最 大 长 度 。 

此 函数 成 功 返 回 0, 失 败 返 回 一 1, 并 设置 errno 变量 。 

4. accept 函数 


int accept (int sockfd, struct sockaddr * addr, socklen tx addrlen); 


该 函数 用 于 处 于 监听 状态 的 服务 器 ,在 获得 客户 机 连接 请 求 后 ,会 将 其 放置 在 等 待 队列 
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中 , 当 系 统 空 闪 时 ,服务 器 用 该 函数 接受 客户 机 的 连接 请 求 。 


信息 


参数 说 明 

(1) sockfd: 经 过 listen 操作 后 的 文件 描述 符 。 

(2) addr: 指向 客户 端 结构 体 sockaddr 的 指针 。 

(3) addrlen: addr 参数 指向 的 内 存 空 间 的 长 度 。 

此 函数 调用 时 ,服务 器 端的 程序 会 一 直 阻 塞 到 有 一 个 客户 程序 发 出 连接 请 求 为 止 。 

此 函数 成 功 时 返回 最 后 的 服务 器 端的 文件 描述 符 , 此 时 服务 器 端 就 可 以 向 该 描述 符 写 
了 ;失败 时 返回 一 1, 并 设置 errno 变量 。 


5. connect 函数 


int connect (int sockfd, const struct sockaddr * serv addr, socklen t addrlen); 
该 函数 用 于 客户 端 向 服务 器 发 出 连接 请 求 。 

参数 说 明 : 

(1) sockfd: 客户 端 socket 返回 的 文件 描述 符 。 

(2) serv_addr: 存储 服务 器 端的 连接 信息 。 

(3) addrlen: serv_addr 的 长 度 。 

此 函数 成 功 返 回 0, 失 败 返回 一 1, 并 设置 errno 变量 。 


6. write 函数 


ssize t write (int fd, const void* buf, size t nbytes); 


该 函数 用 于 服务 器 和 客户 端 建立 连接 后 ,将 buf 中 nbytes 字 节 的 内 容 写 入 文件 描 


其 功 


参数 说 明 : 

(1) fd: socket 返回 的 文件 描述 符 。 

(2) buf; 指向 要 进行 传输 内 容 的 指针 。 

(3) nbytes: 要 传输 的 内 容 的 大 小 。 

此 函数 成 功 时 返回 写 和 人 的 字 节 数 ,失败 时 返回 一 1, 并 设置 errno 变量 。 


7. read 函数 


ssize t read (int fd, void* buf, size t nbyte); 

该 函数 用 于 从 文件 描述 符 fd 中 读 取 内 容 。 

参数 说 明 : E] write 函数 。 

此 函数 成 功 时 返回 读 出 的 字 节 数 , 失 败 时 返回 一 1, 并 设置 errno 变量 。 
8. send 函数 


ssize t send(int s, const void* buf, size t len, int flags); 


该 函数 的 作用 基本 同 write 函数 相同 ,用 于 将 信息 发 送 到 指定 的 套 接 字 文 件 描述 符 中 ， 
能 比 write 函数 更 为 全 面 。 
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参数 说 明 : 

CD s: 要 发 送信 息 的 文件 描述 符 。 

(2) buf; 指向 要 发 送 内 容 的 指针 。 

(3) len: 要 发 送 数据 的 长 度 。 

(4) flags: 设 为 0 时 ,其 功能 与 write 函数 相同 。 其 他 功能 由 于 本 章程 序 中 不 会 用 到 ， 
故 在 此 不 做 详细 介绍 。 

此 函数 成 功 时 ,返回 本 次 调用 实际 发 送 的 字 节 数 ,失败 时 返回 一 1, 并 设置 errno 变量 。 


9. recv 函数 


ssize t recv (int s, void* buf, size t len, int flags); 


该 函数 的 作用 基本 同 read. 函数 相同 ,用 于 从 指定 的 套 接 字 中 获取 信息 。 
参数 说 明 : 

(1) s: 要 读 取 内 容 的 套 接 字 文件 描述 符 。 

(2) buf; 指向 要 保存 数据 缓冲 区 的 指针 。 

(3) len: 该 缓存 的 最 大 长 度 。 

(4) flags: [E] send PR. 

此 函数 成 功 时 返回 0, 失败 时 返回 一 1, 并 设置 errno 变量 。 


10. close 函数 
该 函数 用 于 关闭 套 接 字 , 其 调用 形式 为 : close Csockfd) 。 


3.3 实例 编程 练习 


3.3.1 编程 练习 要 求 


在 Linux 平台 上 实现 基于 DES 加 密 的 TCP 通信。 具体 要 求 如 下 : 

CD 在 了 解 DES 算法 原理 的 基础 上 ,编程 实现 对 字符 串 的 DES 加 密 、 解 密 的 操作 。 

(2) 在 了 解 Linux 操作 系统 中 TCP 的 socket 工作 原理 的 基础 上 ,编程 实现 简单 的 TCP 
通信 。 为 简化 编程 细节 ,不 要 求实 现 一 对 多 通信 。 

(3) 将 上 述 两 部 分 结合 到 一 起 ,编程 实现 通信 内 容 通过 DES 加 密 的 TCP 聊天 程序 ,要 
求 双 方 事先 约定 密 钥 。 在 发 送 方 通过 该 密 钥 加 密 ,然后 由 接收 方 解 密 , 保 证 在 网 络 上 传输 信 
息 的 保密 性 。 

下 面 给 出 示例 程序 的 执行 流程 。 

程序 为 命令 行程 序 ,命令 行 格式 如 下 : 

服务 器 : ./chat-> 输 入 s 

客户 端 : ./chat> 输 入 c 


程序 执行 过 程 如 下 (例如 服务 器 IP 地 址 为 192. 168. 1. 91): 


[root@ localhost share]f ./chat 
Client or Server? 
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然后 打开 另 一 个 控制 台 终 端 ,运行 客户 端的 可 执行 程序 ,客户 端 IP 地 址 为 192. 168. 1. 
232( 代 码 如 下 ) 。 


[root localhost share]# ./chat. 
Client or Server? 

c 

Please input the server address: 
192.168.1.91 

Connect Success! 

Begin to chat... 

Hello» I'm client 


此 时 ,客户 端 已 经 成 功 连接 服务 器 ,可 以 开始 聊天 ,输入 "Hello 一 Im client~”, 服 务 器 
端 发 出 相应 响应 (代码 如 下 )。 


[root@ localhost share]# ./chat 

Client or Server? 

E 

server: got connection fram 192.168.1.232, port 53558, socket 4 
Receive message form < 192.168.1.232» : Hello I'm client 


Hello» I'm servers 


IRS 8 %a ENE 53 fri E Jes n A P 9 In] 82 “ Hello I^ m server 一 ”, 客 户 端 也 得 到 信 
息 并 响应 (代码 如 下 )。 


[root8 localhost share]# ./chat 

Client or Server? 

e 

Please input the server address: 

192.168.1.91 

Connect Success! 

Begin to chat... 

Hello» I'm client- 

Receive message form < 192.168.1.91» : Hello- I'm server- 


聊天 过 程 中 ,任何 一 方 输入 “quit”, 都 可 以 关闭 此 连接 ,结束 聊天 。 
3.3.2 编程 训练 设计 与 分 析 


程序 分 为 两 个 部 分 ,DES 算法 部 分 和 TCP 通信 部分。 其 中 ,DES 算法 部 分 是 核心 部 
分 ,该 部 分 用 来 实现 对 通过 TCP Socket 传输 的 数据 进行 加 密 和 解密 的 操作 。 


1. DES 加 密 解密 设计 实现 分 析 


(D DES 类 的 定义 
在 DES 部 分 的 实现 代码 中 .首先 定义 封装 DES 操作 的 类 CDesOperate, 类 的 私有 成 员 
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包括 生成 的 16 圈 迭 代 密 钥 、 初 始 密 钥 以 及 加 密 、 解 密 流程 中 用 到 的 4 个 函数 。 公 有 成 员 包 
括 构造 函数 , 析 构 函数 以 及 根据 上 述 4 个 函数 封装 的 加 密 函 数 与 解密 函数 ,以 方便 调用 ( 代 
码 如 下 )。 


private: 
ULCNG22 m arrOutKey[16] [2]; 
ULCNG32 m_arrBufkey[2]; 
INT32 HandleData (ULCNG32 * left , ULCNG8 choice); 
INTS2MekeData(ULCNG32 * left ,UICNG32 * right ,ULONG32 munker) ; 
INT32 MakeKey (ULCNG32 * keyleft,ULONG32 * keyright ,ULONG32 number) ; 
INT MakeFirstKey (ULCNG32 * keyP) ; 
public: 
esperate () ; 
~ CDesOperate () 
INT32 Encry(char* pPlaintext, int nPlaintextlength, charx pCipherBuffer, 
int &nCipherBufferlength, char* pKey,int nKeyLength) ; 
INT? Decry(char* pCipher, int rCipherBufferlength, dhar* pPlaintextPuffer, 
int &nPlaintextBufferlength, charx pKey,int nKeyLength) 
其 中 HandleData 用 来 执行 一 次 完整 的 加 密 或 解密 操作 ,MakeData 用 来 实现 16 轮 加 
密 或 解密 迭代 中 的 每 一 轮 除去 初始 置换 和 逆 初 始 置 换 的 中 间 操 作 ,MakeFirstKey 用 来 利用 
用 户 输入 的 初始 密 钥 ,来 形成 16 个 迭代 用 到 的 子 密 钥 ,MakeKey 用 来 形成 16 个 密 钥 中 的 
每 一 个 子 密 钥 ,Encry 用 来 对 某 一 段 字符 加 密 ,Decry 用 来 对 某 一 段 密 文 解密 。 
(2) DES 算法 中 用 到 的 静态 数组 
初始 置换 IP( 代 码 如 下 ): 


static UICNG8 pc first[64]={ 
58, 50, 42, 34, 26, 18, 10, 2, 60, 52, 44, 36, 28, 20, 12, 4, 
€2,54, 46, 38, 30, 22, 14, 6, 64, 56, 48, 40, 32, 24, 16, 8, 
51,49,41,33,25,17,9,1,59,51, 43, 35,27,19,11,3, 
61,53, 45, 37,29,21,13, 5, 63,55, 47, 39, 31,23, 15, 7 
H 


逆 初 始 置换 IP ARTF): 


static ULONGS8 pc last[64]- { 
40,8, 48,16, 56,24, 64, 32, 39,7,41,15,55,23,63,31, 
38,6,46,14,54,22, 62,30, 31,5,45,13,53,21,61,29, 
36,4,44,12,52,20,60,28, 35,3,43,11,51,19,59,27, 
34,2,42,10,50,18,58,26, 33,1,41,9,49,17,51,25 
i 


按 位 取 值 或 赋值 (代码 如 下 ) : 
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static UIONS32 pc by bit[64]={ 
0x80000000L, Ox40000000L, 0x20000000L, Qx10000000L，0x8000000L, 
Ox4000000L, Qx2000000L, Qx1000000L, Qx800000L, Qx400000L, 
0x200000L, Ox100000L,  QxS0000L, Ox40000L, Qx20000L, Qx10000L, 
Ox8000L, Ox4000L, Qx?000L, Ox1000L, Ox800L, Ox400L, Qx?00L, 
Oxl00L, OxSOL,Ox40L,Ox2OL, OxlOL, OxSL, Ox4L, Ox2L, OxlL, 
0x80000000L, 0:40000000L, 0:20000000L, 0x10000000L, 0x:8000000L, 
Ox4000000L, Qx2000000L, Qx1000000L, 0x800000L, Qx400000L, 
Ox200000L, Ox100000L,  Qx80000L, Ox40000L, Ox20000L, Qx10000L, 
OxS000L, Ox4000L, Ox2000L, Qx1000L, OxSOUL, Qx400L, Ox?00L, 
Ox100L, OxBOL, 0x40L,0x20L, Ox10L, OxSL,  Ox4L, Ox2L, OxIL, 

J 


置换 运算 P( 代 码 如 下 ) : 


static UICNS8 des P[32]= ( 
16,7,20,21, 29,12,28,17, 1,15,23,26, 
5,18,31,10, 2,8,24,14, 32,27,3,9, 
19,13,30,6, 22,11,4,25 

k 


AD Gs SE E @ RBF) : 


static ULCNG8 des E[48]- ( 
32,1,2,3,4,5,4,5,6,7,8,9,8,9,10,11,12,13, 
12,13,14,15,16,17,16,17,18,19,20,21, 
20,21,22,23,24,25,24,25,26,21,28,29, 
28,29,30,31,32,1 

k 


选择 压缩 运算 S 盒 ( 代 码 如 下 ) : 


static ULONG8 des S[8] [64]= 
{ 


Oxe, 0x0, 0x4, Oxf, Oxd, 0x7, Ox1, 0x4, 0x2, Oe, Oxf, 0x, xb, 
Oxd, 0x8, 0x1, 0x3, Oxa, Oxa, 0x6, 0x6, Oxc, Oxc, Orio, 0x5, 0x9, 
0x9, 0x5, 0x0, 0x3, 0x7, 0x8, 0x4, Oxf, x1, Oxc, Oxe, 0x8, 0x8, 
02, Oxci, 0:4, 0x6, 0x9, 0x2, 0x1, xb, 0x7, Oxf, 0x5, Qxc, Orb, 
0x9, 0x3, 0x7, Oxe, 0x3, Oxa, Oxa, 00, 0x5, 0x6, 0x0, Oxd 

Lh 


Oxf, 0x3, 0x1, Oxd, 0x8, 0x4, Qe, 0x7, 0x6, Oxf, Oxb, 0x2, 0x3, 
0x8, 0x4, Oxf, 0x9, Ox, 0x7, 0x0, 0x2, 0x1, xd, Oxa, Oxc, 0x6, 
0x0, 0x9, 0x5, Oxb, Oxa, 0x5, 0x0, Oxd, Oxe, 0x8, 0x7, Oxa, Qo, 
xl, Oxa, 03, 0x4, Oxf, Oxcl, 0x4, 0x1, 0x2, 0x5, Ox, 0x8, 0x6, 
Oxc, 0x7, 0x6, Oxc, 0x9, 0x0, 0x3, 0x5, 0x2, Oxe, Oxf, 0x9 

Lh 
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Oxa, Oxd), 0x0, 0x7, 0x9, 0x0, Oxe, 0x9, 0x6, 0x3, 0x3, 0x4, Oxf, 
0x6, 0x5, Oxa, 0x1, 0x2, Oxd, 0x8, Qc, 0x5, 0x7, Oxe, Orb, xc, 
0x4, Ox, 0x2, Oxf, 0x8, 0x1, Oxd, Ox1, 0x6, Oxa, 0x4, Oxd, 0x9, 
0x0, 0x8, 0x6, Oxf, 0x9, 0x3, 0x8, 0x0, 0x7, Oxb, 0x4, 0x1, Oxf, 
0x2, Oxe, Oxe, 0x3, 0x5, Oxb, Oxa, 0x5, Oxe, 0x2, 0x7, Oxe 

b 


0x7, Qxcl, 0xd, 0x8, Oxe, Qo, 0x3, 0x5, Q0, 0x6, 0x6, Oxf, 0x9, 
0x0, Oxa, 0x3, 0x1, 0x4, 0x2, 0x7, Q8, 0x2, 0x5, Oxc, Orb, Ox. 
Oxc, Oxa, 0x4, Oxe, Oxf, 0x9, Oxa, 0x3, 0x6, Oxf, 0x9, 0x0, 0x0, 
0x6, Oxc, Oxa, Orb, Oxa, 0x7, Ql, Oxd, 0x8, Oxf, 0x9, Oc, 0x4, 
0x3, 0x5, Oxe, Ob, 0x5, Oxc, 0x2, 0x7, 0x8, Qx2, 0x4, Oxe 


0x2, Oxe, Oc, Ob, 0x4, 0x2, 0x1, Oxc, 0x7, 0x4, Oxa, 0x7, Oxb, 
Oxd, 0x6, 0x1, 0x8, 0x5, 0x5, 0x0, 0x3, Oxf, Oxf, Oxa, Oxd, 0x3, 
0x0, 0x9, Oxe, 0x8, 0x9, 0x6, 0x4, Orb, 0x2, 0x8, 0x1, Oxc, Oxo, 
0x7, Oxa, Ox, Oxcl, Oxe, 0x7, 0x2, 0x8, Oxd, Oxf, 0x6, 0x9, Oxf, 
Oxc, 0x0, 0x5, 0x9, 0x6, Oxa, 0x3, 0x4, 0x0, 0x5, Oxe, 0x3 


Oxc, Oxa, 0x1, Oxf, Oxa, 0x4, Oxf , 0x2, 0x9, 0x7, 0x2, Oxc, 0x6, 
0x9, 0x8, 0x5, 0x0, 0x6, 0xd, 0x1, 0x3, 0xd, 0x4, Oxe, Oxe, Ox, 
0x7, Od, 0x5, 0x3, 0o, 0x8, 0x9, 0x4, Oxe, 0x3, Oxf, 0x2, 0x5, 
Oxc, 0x2, 0x9, 0x8, 0x5, Oxc, Oxf, 0x3, Oxa, 0x7, Ozib, 0x0, Oxe, 
0x4, 0x1, Oxa, 0x7, Ox1,, 0x6, Oxd, 0x0, Ox, 0x8, 0x6, Oxd 


0x4, Oxd, Qo, 0x0, 0x2, Ox, Oxe, 0x7, Oxf , 0x4, 0x0, 0x9, 0x8, 
Ox, 0xd, Oxa, 0x3, Oxe, Oxc, 0x3, 0x9, 0x5, 0x7, Oxc, 0x5, 0x2, 
Oxa, Oxf, 0x6, 0x8, 0x1, Ox6, O1, 0x6, 0x4, Qi, xb, Oxd, Oxd, 
0x8, Oxc, Q1, 0x3, 0x4, 0x7, Oxa, Oxe, 0x7, Oxa, 0x9, Oxf, 0x5, 
0x6, 0x0, 0x8, Oxf, 0x0, Oxe, 0x5, 0x2, 0x9, 0x3, 0x2, Oxc 

h 


Oxcl, 0x1, 0x2, Oxf, 0x8, Oxd, 0x4, 0x8, 0x6, Oxa, Ox£, 0x3, œb, 
0x7, Qx1, 0x4, Oxa, Qc, 0x9, 0x5, 0x3, 0x6, Oxe, Qxb, 0x5, 0x0, 
0x0, Oxe, xc, 0x9, 0x7, 0x2, 0x7, 0x2, Ob, Ox, 0x4, Oxe, Qx1 
0x7, 0x9, 0x4, Qxc, Oxa, Oxe, 0x8, Qx2, Qd, 0x0, Oxf, 0x6, Oxc, 


k 


等 分 密 钥 , 密 钥 循环 左 移 及 密 钥 选取 (代码 如 下 ) : 
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static ULONG8 keyleft [28]= 
t 
57,49,41,33,25,17,9,1,58,50,42,34,26,18, 
10,2,59,51,43,35,27,19,11,3,60,52,44,36 
J; 
static UICNS8 keyright[28]- 
t 
63,55,47,39,31,23,15,7,62,54,46,38,30,22, 
14,6,61,53,45,37,29,21,13,5,28,20,12,4 
n 
static UIONG8 lefttable[16]- (1,1,2,2,2,2,2,2,1,2,2,2,2,2,2,1); 
static ULONG8 keychoose[48] — ( 
14,17,11,24,1,5,3,28,15,6,21,10, 
23,19,12,4,26,8,16, 7,21,20,13,2, 
41,52, 31, 37, 47, 55, 30, 40, 51, 45, 33, 48, 
44, 49,39, 56, 34, 53, 46, 42, 50, 36, 29, 32 
J: 


(3) DES 密 钥 生 成 

DES 密 钥 是 一 个 64bit 的 分 组 ,但 是 其 中 8bit 用 于 奇偶 校 验 ,所 以 密 钥 的 有 效 位 只 有 
56bit, 由 这 56bit 生成 16 轮子 密 钥 。 

首先 将 有 效 的 56bit 进行 置换 选择 ,将 结果 等 分 为 28bit 的 两 个 部 分 ,再 根据 所 在 的 和 
代 轮 数 进行 循环 左 移 , 左 移 后 将 两 个 部 分 合并 为 56bit 的 密 钥 ,从 中 选取 48bit 作为 此 轮 选 
代 的 最 终 密 钥 ,共生 成 16 个 48bit 的 密 钥 。 每 一 个 密 钥 ,分 为 两 个 Abit 的 部 分 放 在 一 个 
ULONG32 的 二 维 数组 中 保存 。 

每 一 轮 密 钥 的 生成 ,由 MakeKey 函数 实现 ,具体 程序 如 下 所 示 。 


INT32 MakeKey (ULONG32 * keyleft,ULCNG22* keyright ,ULCNG32 number) 
t 
ULCNG32 tmpkey[2] = (0); 
ULONG32 * Ptmpkey- (UICNS32 * )tmpkey; 
UICNG32 * Poutkey- (ULCNG32 * )&g outkey [nrber]; 
INI j; 
memset ((ULONGS * ) tmpkey, 0, sizeof (tmpkey) ) ; 
* Ptmpkey= * keyleft&leftandtab[lefttable[nunber]] ; 
Ptrpkey[1]- * keyright&leftandtab[lefttable [mmber] ]; 
if (lefttable[mnber]==1) 
I 
* Ptmpkey>> = 27; 
Ptmgkey[1]>> = 27; 


* Ptmpkey>> = 26; 
Ptmpkey[1]>> = 26; 


mim 
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H 
Ptmpkey[0] &- Ox£££ffffO; 
Ptmpkey[1] &- Ox£££ffff0; 
* keyleft«« = lefttable [number] ; 
* keyright«« = lefttable [nunber] ; 
* keyleft |= Pamkey[0]; 
* keyright |= Ptmpkey[1]; 
Parmpkey[0]- 0; 
Pampkey[1]- 0; 
for (j-0; j3« 48; j++) 
t 

if (j«24) 

t 


if (* keyleftépc by bit[keychocsej]- 1]) 
t 
Eoutkey[0] |=pe by bitD]; 


} 
else //j>=24 
{ 
if (* keyrightspc by bit[ (keychoose[j]- 28)]) 
{ 
Poutkey[1] | pc by bit[j- 24]; 


(4) DES 加 密 运 算 

DES 的 加 密 运 算 也 分 为 16 圈 迭 代 。 

首先 将 明文 分 为 64bit 的 数据 块 , 不 够 64bit 的 用 0 补 齐 。 在 每 一 轮 中 ,对 每 一 个 64bit 
的 数据 块 ,首先 进行 初始 换 位 ,并 将 数据 块 分 为 32bit 的 两 部 分 ,具体 实现 如 下 : 


INI nmiber-0 ,j-0; 
ULCNG32 * right- &left[1]; 
UICNG32 tmp- 0; 
ULCNG22 trpbuf [2]= (0 }; 
for (j-0; j< 64; j++) 
t 
if (j« 32) 
t 
if (pc first[j]» 32) 
t 
if (* rigntspc by bit[pc first[j]- 11) 


trpbaf[0] |=pe by bitD]; 


if (* leftspc by bit[pc first[j]- 1]) 
ii 
trpbuf[0] |=pc by bit[j]; 


if (pc first[j]» 32) 
t 
if (* rightspc by bit[pc first[j]-1]) 
( 
trebuf[1] |=pe by bit [i]; 


if (* left&pc by bit[pc first[j]- 1]) 
i 
tmgbuf[ |=pe by bit[j]; 


) 
* left -tmpbuf[0]; 
* richt=tngbuf [1]; 
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经 过 初始 置换 并 且 分 组 之 后 ,将 进行 DES 加 密 算法 的 核心 部 分 。 
首先 ,保持 左 部 不 变 ,将 右 部 由 32bit 扩展 成 为 48bit ,分别 存在 两 个 ULONG32 类 型 的 


变量 里 ,每 个 占 24bit, 具 体 实现 如 下 。 


for (j=0; j«48; j++) 
{ 


if <24) 
( 
if (* rightspc by bit[des E[j]- 1]) 
( 
erts P[0] | pc by bit(j]; 
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if (* rightspc by bit [des E[j]-1]) 
{ 
exis P[1] |-pc by bit[j- 24]; 


) 


在 将 右 部 扩展 成 为 48bit 之 后 ,与 该 轮 的 密 钥 进行 异 或 操作 ,由 于 48bit 分 在 一 个 
ULONG32 数组 中 的 两 个 元 素 中 ,因此 要 进行 两 次 异 或 操作 ,具体 实现 如 下 。 


for (j-0; j<2; j++) 
t 

exdes P[j] =g outkey [number] [j]; 
) 


在 异 或 操作 完成 之 后 ,对 新 的 48bit 进行 压缩 操作 , 即 S @ , 
将 其 每 取 6bit, 进 行 一 次 操作 ,具体 实现 如 下 。 


exdes P[1]>>=8; 

rexpbuf[7]- (ULONG8) (exdes P[1]&0x0000003fL) ; 
exies P[1]>>= 6; 

rexpbuf[6]- (UICNS9) (exdes P[1]&0x0000003fL) ; 
exdes P[1]>>= 6; 

rexpbuf[5]- (ULONGS) (exdes P[1]&0x0000003fL) ; 
exdes P[1]>>= 6; 

rexpbuf[4]- (UICNS9) (exdes P[1]&0x0000003fL) ; 
exdes P[0]>>=8; 

rexpbuf[3]- (ULONGS) (exdes P[0]&0x0000003fL) ; 
exdes P[0]»» 6; 

rexpbuf[2]- (ULCNG9) (exdes P[0]&0x0000003fL) ; 
exdes P[0]»» — 6; 

rexpbuf[1]- (ULONGS) (exdes P[0]&0x0000003fL) ; 
exdes P[0]»» — 6; 

rexpbuf[0]- (ULCNGS) (exdes P[O]&Qx0000003fL) ; 
exdes P[0]- 0; 

exdes P[1]- 0; 


8 个 6bit 的 数据 存在 ULONG rexpbuf[8] 中 ,然后 进行 数据 压缩 操作 ,每 一 个 6bit 经 过 
运算 之 后 输出 4bit, 因 此 最 终 输出 的 是 压缩 后 的 32bit 数据 (代码 如 下 )。 


* right-0; 

for (j-0; j« 7; j++) 

1 
* right |-des S[j] [rexcbaf [31]; 
* right««— 4; 
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) 
* right |-des S[j] [rexcbuf [5]]; 


对 新 的 32bit 数据 ,进行 一 次 置换 操作 (代码 如 下 ) 。 


datatmp- 0; 
for (j*0; j« 32; j* *) 
t 
if (* rightspc by bit[des P[j]- 1]) 
t 
datatrp |-pc by bitD]; 


) 
* right- datatmp; 


基于 DES 加 密 的 TCP 聊天 程序 


再 把 左右 部 分 进行 异 或 作为 右 半 部 分 ,最 原始 的 右边 作为 左 半 部 分 (代码 如 下 )。 


* right ~ * left; 
* left- oldright; 


最 后 进行 逆 初 始 置 换 , 完 成 一 轮 完整 的 加 密 操作 (代码 如 下 )。 


for (j=0; j< 64; j++) 
t 
if 6<32) 
1 
if (pc lastB]» 32) 
{ 
if (* right&pc by bit[pc last[j]- 1]) 
ji 
tngbuf [0] |- pc by bit[]; 


if (* left&pc by bit[pc last[j]-1]) 
t 
tmgbuf[0] |=pe by bit[j]; 


if (pc lastD]> 32) 
{ 
if (* rightspc by bit [pe last[j]-1]) 
{ 
trgbuf[1] |=pe by bitD]; 
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if (* leftpc by bit(pc last[j]- 1) 
t 

tngbuf [1] |=pe by bit]; 
1 


} 
) 
* left = trebuf [0]; 
* right- rpba£[1]; 
(5) 封装 DES 加 密 函 数 
将 上 述 运 算 整 合 在 一 起 ,可 以 封装 成 一 个 加 密 函数 ,以 便于 调用 ,其 中 pPlaintext 为 明 
文部 分 , nPlaintextLength 为 明文 长 度 , pCipherBuffer 为 准备 存放 密 文 的 缓冲 区 ， 
nCipherBufferLength 为 密 文 长 度 ,pKey 为 密 钥 ,nKeyLength 为 密 钥 长 度 ,代码 如 下 : 
INT32 Encry (char * pPlaintext, int nPlaintextlength,char* pCipherBuffer, int 
&nCipherPufferlength, char * pKey,int nKeyLength) 
{ 
if(nKeyLength!- 8) 
{ 
首先 检查 初始 密 钥 长 度 , 若 正确 , 则 创建 16 圈 迭 代 的 密 钥 (代码 如 下 )。 


retum 0; 
} 
MakeFirstKey ((ULONG32 * )pKey) ; 
由 于 加 密 、 解 密 均 要 以 32bit 为 单位 进行 操作 , 故 需 要 计算 相关 参数 ,以 确定 加 密 的 循 
环 次 数 以 及 密 文 缓冲 区 是 否 够 用 ,确定 后 将 需要 加 密 的 明文 格式 化 到 新 分 配 的 缓冲 区 内 ( 代 
码 如 下 ) 。 


int nLenthoflong- ((nPlaintextlength* 7) /8) * 2; 
if (nCipherBufferlength« nLenthoflong* 4) 
(//out put buffer is not enough 
rCipherBufferLength- nLenthoflong* 4; 
retum 0; 
H 
memset (pCipherBuffer, 0, nCipherBufferLength) ; 
ULCNG32 * pOutPutSpace- (ULONG32* )pCipherBuffer; 
"ULCNG32 * pSource; 
if(nPlaintextlength!- sizeof (ULCNG32) * nIenthoflong) 
t 
PScurce= new UICNS32 [nLenthofLeng] ; 


$33 基于 DES 加 密 的 TCP 聊天 程序 


merset (pSource, 0, sizeof (ULCNG32) * nlenthoflong) ; 
memopy (pSource, pPlaintext, nPlaintextlength) ; 

} 

else t 
pSouroe- (UICNG32 * )pPlaintext; 

li 


开始 对 明文 进行 加 密 , 加 密 后 将 之 前 分 配 的 缓冲 区 从 内 存 中 删除 (代码 如 下 )。 


UICNG32 gp msg[2]= {0,0}; 
for (int i=0;i< (nlenthoflong/2);it+) 
{ 
P msg[0]- pSouree [2* i]; 
qp msg[1]- p&curee [2* it 1]; 
HandleData (gp msg,LESENCRY) ; 
poutPutSpace[2 * i]-gp meg[0]; 
poutPutSpace[2 * i+ 1]- gp msg[1]; 
š 
if(pPlaintext!- (char * ) pScurce) 
t 
delete []pScurce; 
) 


return SWESS; 
) 


最 后 需要 说 明 , 上 述 函 数 为 一 次 完整 的 加 密 流 程 ,解密 流程 与 加 密 流程 基本 一 致 , 仍 是 
先进 行 初始 置换 ,最 后 进行 逆 置 换 , 中 间 16 轮 利用 16 个 密 钥 的 迭代 加 密 , 唯 一 不 同 的 地 方 
在 于 所 生成 的 16 个 密 钥 的 使 用 顺序 ,加 密 运 算 与 解密 运算 的 密 钥 使 用 顺序 正好 相反 。 


2. 基于 TCP 的 聊天 功能 模块 设计 实现 分 析 


TCP 通信 流程 如 图 3-4 所 示 。 

(1) 建立 连接 

对 于 客户 端 ,首先 输入 服务 器 IP 地 址 ,建立 并 初始 化 连接 套 接 字 和 sockaddr_in 结构 
体 ,向 服务 器 请 求 连 接 , 进 行 实时 聊天 ,关闭 套 接 字 (代码 如 下 )。 


char strIpPodr [16]; 
cin»» strlIpAddr; 
int nConnectSocket, nlength; 
struct sockaddr in sDestAddr; 
if ((nOonnectSocket- socket(AF INET, SOCK STREAM, 0))« 0) 
t 
perror ("Socket"); 
exit (ermo); 
} 
sDestAddr.sin family-AF INET; 
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Server Client 


图 3-4 TCP 通信 流程 示意 图 


sDestAddr.sin port= htons (SERVERECHT) ; 
sDestAcdr.sin addr.s adidr- inet actir(strIpAddr); 
if (connect (nConnectSocket, (struct sockaddr* ) &sDestAddr, sizeof (sDestAddr) ) != 0) 
t 
perror ("Connect "); 
exit(ermo); 
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对 于 服务 器 端 ,建立 并 初始 化 本 地 sockaddr_in 结构 体 ,与 本 地 套 接 字 绑 定 并 开始 监 
听 , 建 立 远 程 sockaddr_in 和 套 接 字 ,在 接受 客户 端 连接 请 求 后 存储 客户 端的 相关 信息 ( 代 
码 如 下 ) 。 

int nlistenSocket, nhooeptSocket; 

struct sockaddr in slocalAciir, sRemoteAddr; 


if (bind(nListenSocket, (struct sockaddr * ) &sLocalAckir, sizeof (struct sockaddr))==- 1) 
t 
perror ("bind") ; 
exit(1); 
I 
if (listen(nListenSocket, 5)==- 1) 
t 
perror ("listen"); 
exit (1); 
1 
nAcosptSocket= acoept (nListenSocket, (struct sockaddr* ) &sRemoteAddr, &nLength) ; 
close(nlistenSocket); printf ("server: got connection fram $ s, port $ d, socket $ dV n", inet ntoa 
(sRemoteAcHr.sin addr),ntohs (sRemoteAcdHr.sin port), nAcoeptSocket); 
SecretChat (nAcoeptSocket,inet ntoa(sRemoteAddr.sin addr),"benbermi") ; 
Close (nAcoeptSocket) ; 
t 
(2) 多 进程 全 双 工 聊天 程序 分 析 
Linux 是 一 种 多 用 户 ,多 进程 的 操作 系统 。 每 个 进程 都 有 一 个 唯一 的 进程 标识 符 ,操作 
系统 通过 对 机 器 资源 进行 时 间 共 享 , 并 发 地 运行 许多 进程 。 
在 Linux 中 ,程序 员 可 以 使 用 fork() 函 数 创建 新 进程 , 它 可 以 与 父 进程 完全 并 发 地 运 
行 。fork() 函 数 不 接 受 任何 参数 ,并 返回 一 个 int 值 。 当 它 被 调用 时 ,创建 出 的 子 进程 除了 
拥有 自己 的 进程 标识 符 以 外 ,其 余 特 征 , 例 如 数据 段 .堆栈 段 、 代 码 段 等 和 其 父 进程 完 全 相 
同 。fork() 函 数 向 子 进程 返回 0, 向 父 进程 返回 子 进程 的 进程 标识 符 , 该 标识 符 是 一 个 非 零 
的 int ff. 
当 fork O PR CBE D HT JG — 1r 56 2H E RIP EFE GL Z OL E SE EXEJE Mie £7 dE IRE rp nf 
以 利用 该 函数 的 返回 值 来 区 分 父 进程 和 子 进程 。 另外 ,每 个 进程 都 有 自己 独立 的 堆栈 段 ,所 
以 两 个 进程 的 局 部 变量 相互 独立 ,在 任意 一 个 进程 中 都 可 以 随便 访问 而 不 必 考 虑 同步 问题 ， 
但 是 如 果 进 程 使 用 了 文件 指针 , 则 必须 小 心 对 待 , 因 为 两 个 进程 的 文件 指针 将 会 指向 同一 个 
底层 文件 ,并 行 的 读 写 操作 可 能 造成 冲突 。 
另外 ,如 果 调 用 fork() 函 数 的 次 数 过 于 频繁 造成 系统 中 进程 总 数 过 多 ,系统 可 能 由 于 耗 
尽 所 有 可 用 的 资源 而 导致 创建 新 进程 失败 。 
该 聊天 功能 在 函数 SecretChat() 中 实现 ,摘录 代码 如 下 。 
void SecretChat (int. nSock, char * pRemoteName, char * pKey) 
T 
CDesOperate des; 
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if (strlen (ey) != 8) 

( 
printf ("Key length error"); 
retum; 


pid t nPid; 
nPid- fork(); 
if (nPid!=0) 
f 
while(1) 
{ 
bzero (&strSocketBuffer, BUFFERSIZE) ; 
int nlength- 0; 
nLength- TotalRecv (nSock, strSocketBuffer,BUFFERSIZE, 0) ; 
if (nLength !- BUFFFRSIZE) 
t 
break; 


int nler= BUFFERSIZE; 
cDes.Decry (strSocketBuffer, BUFFERSIZE, strDecryBuffer,nLen,pKey, 8) ; 
strDecryBuffer [BUFFERSIZE- 1]= 0; 
if (strDecryBuf fer [0] != 0&&strDecryBuf fer [0] != '\n') 
í 
printf ("Reoeive message form < $ s> : $ s\n", pRemoteNs=me, 
strDecryBuffer); 
if(0- — memarp ("quit", strDecryBuffer, 4) ) 
{ 
printf "Quit! Vn") ; 
break; 


while(1) 

t 
bzero(&strStdinBuffer, BUFFERSIZE) ; 
while (strStdinBuffer [0]- — 0) 
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} 
} 
int nlen- BUFFERSIZE; 
cDes.Encry (strStdinBuffer, BUFFERSIZE, strEncryBuf fer, nLen, pKey, 8) ; 
if(send(nSock, strEncryBuffer, BUFFERSIZE, 0) != BUFFERSIZE) 
t 
perror ("send"); 
} 
else 
{ 
if(0- —memamp ("quit", strStdinBuffer, 4) ) 
t 
printf ("Quit!Nn") ; 
break; 


) 


该 函数 的 参数 有 3 个 ,其 中 nSock 是 socket 句柄 .要求 其 必须 是 一 个 已 经 建立 连接 的 
socket;pRemoteName 指向 一 个 字符 串 ,代表 远程 主机 的 名 字 ;pKey 指向 另 一 个 字符 串 , 储 
ff DES 密 钥 。 程 序 在 连接 建立 完成 后 ,直接 调用 该 函数 执行 聊天 功能 ,其 中 密 钥 为 双方 事 
先 共享 的 字符 串 。 

该 函数 在 完成 必要 的 错误 检查 后 ,调用 fork O 函数 创建 了 一 个 子 进程 ,如 果 条 件 
“if(nPid! 二 0)” 满 足 , 则 代表 当前 进程 为 父 进程 ,否则 为 子 进程 。 父 进程 负责 接收 密 文 消 
息 ,解密 并 输出 到 屏幕 ;同时 子 进程 负责 从 标准 输入 读 取消 息 , 加 密 并 发 送 到 指定 的 套 接 字 ， 
两 个 进程 完全 并 行 ,实现 实时 聊天 的 功能 。 由 于 父 、 子 进程 的 代码 原理 基本 相同 , 故 只 对 子 
进程 代码 进行 分 析 。 

聊天 通信 双方 传递 固定 大 小 的 数据 块 , 子 进程 通过 调用 fgets() 函 数 从 标准 输入 读 取 数 
据 , 如 果 无 法 读 到 数据 , 则 始终 循环 等 待 , 直 到 读 取 到 用 户 输入 为 止 。 由 于 本 代码 做 教学 使 
用 ,为 了 简化 编写 ,未 考虑 用 户 输 入 超过 缓冲 区 长 度 的 现象 。 

在 获得 用 户 输入 后 .调用 类 CDesOperate 中 封装 的 加 密 函 数 Encry() 进 行 加 密 , 然 后 调 
用 send() 函 数 将 加 密 后 的 数据 块 发 送出 去 。 

此 外 ,需要 解释 的 是 ,在 父 进 程 中 从 socket 接收 数据 使 用 函数 TotalRecv(), 这 是 因为 
TCP 在 某 些 特殊 情况 下 (例如 链 路 质量 变化 ) ,recv() 函数 一 次 并 不 能 返回 对 方 发 送 的 全 部 
数据 , 需 多 次 调用 recv() 函 数 才能 获得 全 部 数据 ,使 用 该 函数 是 为 了 确保 将 整个 数据 块 可 以 
被 顺利 接收 。 

该 函数 代码 如 下 。 


ssize t TotalRecv(int s, void* buf, size t len, int flags) 
$ 
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size 七 nCurSize= 0; 
while(naxSize < len) 
M 
ssize t nRes- recy (s, ( (char * )buf)+ nCurSize,1en- rCurSize, flags); 
if(nRes« 0| | nRes* nCurSize» len) 
t 
return - 1; 
) 
nCurSizet =rRes; 
H 


) 
3.4 扩展 与 提高 
3.4.1 高 级 套 接 字 函 数 
1. recv 函数 和 send 函数 


recv 函数 和 send 函数 提供 了 和 read 函数 与 write 函数 类 似 的 功能 ,不 同 之 处 是 前 者 提 
供 了 第 4 个 参数 来 控制 读 写 操作 。 两 个 函数 的 原型 如 下 。 

int recv(int sockfd,void* buf,int len,int flags) 

int send(int sockfd,void* buf,int len,int flags) 

该 两 函数 的 前 3 个 参数 和 read 函数 、write 函数 相同 ,第 4 个 参数 可 以 是 0 或 者 是 以 下 
的 组 合 

(D MSG_DONTROUTE: 不 查找 路 由 表 ; 

(2) MSG_OOB: 接受 或 者 发 送 带 外 数据 ; 

(3) MSG_PEEK: 查看 数据 ,并 不 从 系统 缓冲 区 移 走 数据 ; 

(4) MSG_WAITALL: 等 待 所 有 数据 。 

MSG_DONTROUTE: send 郴 数 使 用 的 标志 。 这 个 标志 告诉 IP 协议 ,目的 主机 在 本 
地 网 络 上 面 , 没 有 必要 查找 路 由 表 。 这 个 标志 一 般 用 在 网 络 诊断 和 路 由 程序 中 。 

MSG_OOB: 表示 可 以 接收 和 发 送 带 外 数据 。 理 论 上 可 以 把 带 外 数据 看 作 是 流 套 接 字 
数据 传输 中 独立 的 高 优先 级 传输 通道 。 带 外 数据 是 独立 于 普通 数据 传送 给 用 户 的 ,每 次 传 
输 至 少 传送 一 个 字 节 的 带 外 数据 。 

MSG PEEK: recv 函数 的 使 用 标志 ,表示 只 是 从 系统 缓冲 区 中 读 取 内 容 , 而 不 清除 系 
统 缓冲 区 的 内 容 。 以 便 下 次 读 的 时 候 , 仍 然 是 相同 的 内 容 。 一 般 在 有 多 个 进程 读 写 数据 时 
可 以 使 用 这 个 标志 。 

MSG WAITALL: recv 函数 的 使 用 标志 ,表示 等 到 所 有 的 信息 到 达 时 才 返 回 。 使 用 这 
个 标志 的 时 候 recv 函数 会 一 直 阻塞 ,直到 指定 的 条 件 满足 ,或 者 是 发 生 了 错误 。 

CD 当 读 到 了 指定 的 字 节 时 ,函数 正常 返回 ,返回 值 等 于 len; 
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(2) 当 读 到 了 文件 的 结尾 时 ,函数 正常 返回 ,返回 值 小 于 len; 
(3) 当 操 作 发 生 错误 时 ,返回 一 1, 且 设置 错误 为 相应 的 错误 号 (errno) 。 
如 果 flags 为 0, 则 功能 和 read 函数 write 函数 完全 相同 。 


2. shutdown 函数 


shutdown 函数 的 原型 如 下 。 

TCP 连接 是 双向 的 ( 即 是 可 读 写 的 ) , 当 使 用 close 时 ,会 把 读 写 通 道 都 关闭 ,有 时候 希 
望 只 关闭 一 个 方向 ,这 个 时 候 可 以 使 用 shutdown 函数 。 针 对 不 同 的 howto 参数 ,系统 会 采 
取 不 同 的 关闭 方式 。 

(1) howto=0 时 ,系统 会 关闭 读 通道 ,但 是 可 以 继续 对 套 接 字 描述 符 进行 写 操作 。 

(2) howto— 1 时 ,和 上 面相 反 , 系 统 会 关闭 写 通道 ,此 时 只 可 以 对 套 接 字 描 述 符 进 行 读 
BE. 

(3) howto—2 时 ,关闭 读 写 通道 ,功能 和 close 相同 。 在 多 进程 程序 里 面 , 有 几 个 子 进 
程 共享 一 个 套 接 字 时 ,如果 使 用 shutdown 函数 ,此 时 所 有 的 子 进程 都 不 能 够 操作 ,这 个 时 
候 只 能 使 用 close 来 关闭 子 进程 的 套 接 字 描 述 符 。 


3.4.2 新 一 代 对 称 加 密 协议 AES 


由 于 DES 及 其 变形 算法 的 安全 强度 已 经 难以 继续 满足 新 的 安全 需要 ,难以 对 抗 20 tE 
纪 末 出 现 的 差分 和 线性 密码 分 析 , 而 且 其 实现 速度 ,代码 大 小 以 及 跨 平台 性 均 难以 满足 新 的 
需求 ,美国 政府 于 1997 年 开始 公开 征集 新 的 数据 加 密 标 准 (Advanced Encryption 
Standard, AES) 算 法 ,以 取代 DES。 经 过 3 轮 筛选 ,最 后 选中 比利时 密码 学 家 Joan Daemen 
和 Vincent Rijmen 提出 的 密码 算法 Rijndael 作为 AES 正式 取代 DES. 


1. AES 算法 描述 
Rijndael 是 具有 可 变 分 组 长 度 和 可 变 密 钥 长 度 的 分 组 密码 。 其 分 组 长 度 和 密 钥 长 度 均 
可 以 独立 地 设 定 为 32bit 的 任意 倍数 ,最 小 值 为 128bit ,最 大 值 为 256bit, 其 输入 输出 均 可 看 
做 是 一 个 一 维 的 字符 数组 。 假 设 输入 明文 为 ,ec eco EP 0<;<4* N。 将 明文 映射 
到 一 个 字 节 和 矩阵 上 , 称 之 为 状态 ,在 本 例 中 N= 二 4, 密 钥 同 理 可 以 映射 到 密 钥 状态 中 ,如 
K 3-17 所 示 。 
表 3-17 数据 块 长 度 为 128bit 的 状态 


[ [2 Cs c12 
o cs Co cn 
C2 Cs Cio ea 
cs cr cn es 


Rijndael 加 密 算 法 由 3 个 部 分 组 成 : 一 个 初始 轮 密 钥 加 法 变换 ;N 一 1 轮 变换 ;最 后 一 
轮 变 换 。 下 面 给 出 实现 该 算法 的 伪 代 码 : 
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Rijndael (State, CipherKey) 


t 


// 密 钥 扩展 , 即 把 输入 的 密 钥 扩 展 为 加 密 用 的 密 铀 


KeyExpansion(CipherKey, ExpancKey) 7 


// 初 始 轮 密 钥 加 法 变换 
RGBRounqkey (State, EspancKey) ; 


/IN- AERE 


for i- liic N;it *) 


{ 


//s- 盒 变换 , 非 线性 的 置换 操作 
ByteSub (State) ; 


Round (State, ExpandedKey[i]) 


// 字 节 换 位 ,将 状态 中 的 行 按 不 同 的 偏 移 量 进行 循环 移 位 


ShiftRow(State) ; 

// 作 用 在 状态 各 列 的 置换 操作 
MixColum (State); 

// 密 钥 加 法 

BdcRouncKey (State, Expandecey[i]) ; 


H 
// 最 后 一 轮 变 换 
FinalRound (State, ExpandedKey[N]) 


{ 


} 


ByteSub (State) ; 
ShiftRow State); 


AddFoundKey (State, FxpandedKey[i]); 


考虑 到 AddRoundKey() 函 数 可 以 通过 在 每 一 列 上 执行 一 个 额外 的 32bit 异 或 运算 来 
实现 , 故 也 可 以 利用 AKB 的 表 通 过 查 表 操 作 实 现 , 该 实现 方案 对 于 每 一 轮 的 每 一 列 仅仅 需 
要 4 次 查 表 和 4 次 异 或 运算 ,实现 这 些 操作 的 效率 很 高 。 同 理 , 在 解密 算法 中 ,也 可 以 将 轮 
变换 的 不 同步 又 合并 为 一 组 表 的 查询 。 


2. AES 算法 与 DES 算法 的 比较 


在 一 篇 关于 AES 和 DES 两 种 算法 比较 的 论文 中 ,作者 曾 利用 两 种 算法 在 相同 环境 下 
对 同样 长 度 的 文件 进行 加 密 , 并 且 对 其 加 密 效率 和 时 间 进 行 了 比较 ,程序 的 环境 为 
Windows 2000,CPU 2.2GHz, 内 存 256MB, 文 件 长 度 为 3. 77MB(3960928B) , AES 分 组 长 
度 为 128bit, 密 钥 长 度 为 128bit,DES 分 组 长 度 为 64bit, 密 钥 长 度 为 56bit, 具 体 实验 结果 如 
X 3-18 与 表 3-19 所 示 。 
53-18. AES 和 DES 加 解密 的 时 间 比 较 


表 3-19 AES 和 DES 加 解密 效率 比较 


算法 加 密 (s) 解密 (s) 算法 加 密 (Mbps) 解密 (Mbps) 
DES 18 18 DES 1.676 1.676 
AES 6 10 AES 5.027 3.016 


$33 基于 DES 加 密 的 TCP 聊天 程序 


从 上 述 实 验 数 据 可 以 看 出 ,AES 算法 的 分 组 长 度 与 密 钥 长 度 均 大 于 DES 算法 ,而 加 解 
密 效率 也 高 于 DES 算法 ,更 为 重要 的 是 ,用 穷 举 法 破解 AES 在 有 限 的 时 间 内 是 不 可 能 的 。 
上 述 所 有 因素 促成 了 AES 取代 传统 DES 成 为 新 一 代 的 加 密 体系 。 


3.4.3 DES 安全 性 分 析 


B DES 算法 1977 年 首次 公 诸 于 世 以 来 ,学 术 界 对 其 进行 了 深入 的 研究 ,围绕 它 的 安全 
性 展开 了 激烈 的 争论 。 


1. DES 的 安全 性 缺陷 


在 技术 上 对 DES 的 批评 主要 集中 在 以 下 3 个 方面 : 

(1) 作为 分 组 密码 ,DES 的 加 密 单 位 仅 有 64bit 二 进 制 ,这 对 于 数据 传输 来 说 太 小 , 因 
为 每 个 分 组 仅 含有 8 个 字符 ,而 且 其 中 某 些 位 还 要 用 于 奇偶 校 验 或 其 他 通信 开销 。 

(2) DES 的 密 钥 太 短 ,有 效 密 钥 只 有 56bit, 而且 各 次 迭代 中 使 用 的 密 钥 是 递 推 产 生 的 ， 
这 种 相关 性 必然 会 降低 密码 体制 的 安全 性 ,在 现 有 技术 下 用 穷 举 法 寻找 密 钥 已 趋 于 可 行 。 
1999 年 在 电子 前 沿 组 织 (Electronic Frontier Foundation, EFF) 进 行 的 一 次 测试 中 ,只 用 了 
不 到 3 天 的 时 间 就 破解 了 一 个 DES 加 密 系统 。 

(3) DES 不 能 对 抗 差 分 和 线性 密码 分 析 。 


2. 多 重 DES 算法 


针对 DES 算 法 上 的 缺陷 ,现在 已 发 展 出 几 十 种 改进 的 DES 算法 ,经 过 比较 ,大 多 学 者 
认为 多 重 DES 算法 具有 较 高 的 可 行 性 。 为 了 增加 密 钥 的 长 度 , 采 用 多 重 DES 加 密 技术 ,将 
分 组 密码 进行 级 联 ,在 不 同 的 密 钥 作用 下 ,连续 多 次 对 一 组 明文 进行 加 密 。 针 对 DES 算法 ， 
最 常用 的 是 3 E DES 加 密 算法 , 它 只 用 到 了 两 个 56bit 的 DES 密 钥 。 假 设 这 两 个 密 钥 为 
K, 和 K: , 则 该 算法 的 步骤 如 下 。 

CD 用 密 钥 K1 进行 DES 加 密 。 

(2) 用 步骤 1 的 结果 使 用 密 钥 K2 进行 DES 解密 。 

(3) 用 步骤 2 的 结果 使 用 密 钥 K1 进行 DES 加 密 。 

3 重 DES 算法 可 使 加 密 密 钥 长 度 扩展 到 128bit, 其 中 有 效 位 数 112bit。3 E DES 的 
112bit 密 钥 长 度 在 可 以 预见 的 将 来 被 认为 是 合适 的 、 安 全 的 ,目前 还 没有 找到 针对 此 方案 的 
攻击 方法 。 因 为 要 破译 它 可 能 需要 尝试 256 个 不 同 的 56bit 密 钥 直到 找到 正确 的 密 钥 。 但 
是 3 重 DES 的 时 间 是 DES 算法 的 3 倍 ,时 间 开 销 较 大 。 


3. 密 钥 管理 


现代 密码 学 的 特征 是 算法 可 以 公开 。 系 统 的 安全 管理 者 ,要 根据 本 系统 实际 所 使 用 的 
密 钥 长 度 与 其 所 保护 的 信息 的 敏感 程度 .重要 程度 以 及 系统 实际 所 处 安全 环境 的 恶劣 程度 ， 
在 留 有 足够 的 安全 系数 的 条 件 下 来 确定 其 密 钥 和 证 书 更 换 周 期 的 长 短 。 同 时 ,将 已 废弃 的 
密 钥 和 证 书 放 入 黑 库 归档 ,以 备 后 用 。 密 钥 更 换 周期 的 正确 安全 策略 是 系统 能 够 安全 运行 
的 保障 ,是 系统 的 安全 管理 者 最 重要 、 最 核心 的 日 常 工作 任务 。 
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基于 RSA 算 法 自动 分 配 密 钥 
的 加 密 聊 天 程序 


4.1 编程 训练 目的 与 要 求 


在 讨论 了 对 称 加 密 算法 DES 原理 与 实现 方法 的 基础 上 ,本 章 将 以 典型 的 非 对 称 的 公 钥 
密码 RSA 算法 为 例 ,以 实现 基于 TCP 协议 的 聊天 程序 加 密 为 目标 ,系统 地 讨论 公 钥 密码 体 
系 与 RSA 算法 的 基本 工作 原理 与 应 用 软件 编程 方法 。 

本 章 训练 的 主要 目的 是 : 

(1) 理解 RSA 算法 的 基本 工作 原理 。 

(2) 掌握 基于 RSA 算法 的 网 络 加 密 通信 系统 设计 方法 与 实现 技术 。 

(3) 掌握 在 Linux 平台 上 实现 RSA 算法 的 编程 方法 。 

(4) THE Linux 操作 系统 异步 1/O 接口 的 基本 工作 原理 。 

本 章 编程 训练 的 要 求 如 下 : 

CD 要 求 在 Linux 平台 上 完成 基于 RSA 算法 的 自动 分 配 密 钥 加 密 聊 天 程序 的 编写 。 

(2) 应 用 程序 除 要 保持 第 3 章 * 基 于 DES 加 密 的 TCP 通信 ?中 要 求 的 全 部 功能 以 外 ,要 
在 此 基础 上 进行 扩展 ,实现 密 钥 自 动 生 成 ,并 基于 RSA 算法 进行 密 钥 共享 。 

(3) 要 求 程序 能 够 实现 加 密 的 全 双 工 通信 ,并 且 加 密 过 程 对 用 户 是 透明 的 。 


4.2. 相关 背景 知识 


1. 公 角 密码 体系 的 基本 概念 


传统 对 称 密码 体制 要 求 通信 双方 使 用 相同 的 密 钥 ,因此 应 用 系统 的 安全 性 完全 依赖 于 
密 钥 的 保密 。 针 对 对 称 密 码 体系 的 缺陷 ,Diffie 和 Hellman 提出 了 新 的 密码 体系 一 一 公 钥 
密码 体系 ,也 称 为 非 对 称 密码 体系 。 在 公 钥 加 密 系统 中 ,加 密 和 解密 使 用 两 把 不 同 的 密 钥 。 
加 密 的 算法 和 公 钥 可 以 公开 ,但 是 解密 的 私 钥 必 须 保 密 , 只 有 解密 方 知道 。 公 钥 密码 体系 要 
求 算法 要 能 够 保证 : 任何 攻击 者 都 无 法 从 公 钥 中 推算 出 私 钥 。 

公 钥 密码 体制 中 最 著名 算法 是 RSA 算法 ,以 及 背包 密码 .MecEliece Diffie _Hellman, 
Rabin、 零 知识 证 明 、 椭 圆 曲线 和 ElGamal 算法 等 。 


2. 公 钥 密码 体系 的 特点 
公 钥 密码 体系 由 如 下 几 个 部 分 组 成 : 
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(1) 明文 : 作为 算法 输入 的 消息 或 者 数据 。 

(2) 加 密 算法 : 加 密 算 法 对 明文 进行 各 种 代 换 和 变换 。 

(3) EX: 作为 算法 的 输出 ,看 起 来 完全 随机 而 杂乱 的 数据 ,依赖 明文 和 密 钥 。 对 于 给 
定 的 消息 ,不 同 的 密 钥 将 产生 不 同 的 密 文 , 密 文 是 随机 的 数据 流 ,并且 其 意义 是 无 法 理解 的 。 

(4) 公 钥 和 私 钥 : 公 钥 和 私 钥 成 对 出 现 , 一 个 用 来 加 密 , 另 一 个 用 来 解密 。 

(5) 解密 算法 : 该 算法 用 来 接收 密 文 ,解密 还 原 出 明文 。 

(6) 公 钥 密码 体系 的 基本 结构 如 图 4-1 所 示 。 


> < 


明文 输入 | > | 加 密 算法 | Logs] | 解密 算法 密 文 输出 


图 4-1 公 钥 密码 体系 原理 示意 图 


3. RSA 加 密 算法 的 基本 工作 原理 


RSA 加 密 算法 是 一 种 典型 的 公 钥 加 密 算法 。RSA 算法 的 可 靠 性 建立 在 分 解 大 整数 的 
困难 性 上 。 目 前 一 般 只 有 使 用 短 密 钥 进行 加 密 的 RSA 加 密 结果 才 可 能 被 穷 举 法 破译 。 只 
要 其 密 钥 的 长 度 足 够 长 ,用 RSA 加 密 的 信息 的 安全 性 就 可 以 保证 。 

RSA 密码 体系 使 用 了 乘 方 运算 。 明 文 以 分 组 为 单位 进行 加 密 , 每 个 分 组 的 二 进 制 值 均 
小 于 nn, 即 分 组 的 大 小 必须 小 于 或 者 等 于 Logsn。 在 实际 应 用 中 ,分 组 的 大 小 是 上 位, 则 
i a sN 

对 于 明文 分 组 M 和 密 文 分 组 C, 其 加 密 和 解密 的 过 程 如 下 。 

(D C-M' Yin 

(22 M—C!9in— (MO? in M^ Wn—-M 

其 中 nde 为 3 个 整数 ,上 且 dXe 三 1%y$(n)。 收 发 双方 共享 n, 接 收 一 方 已 知 &, 发 送 一 
方 已 知 e, 则 此 算法 的 公 钥 为 {e,n}), 私 钥 是 {d en 。 

理解 RSA 算法 的 基本 工作 原理 需要 数论 的 一 些 基 础 知识 : 

CD R: 两 个 整数 a.b, 若 它们 除 以 整数 m 所 得 的 余数 相等 , 则 称 a Lo 对 于 模 m 同 
余 , 记 作 ab Tom. 

(2) Euler 函数 : $(n) 是 指 所 有 小 于 nn 的 正 整数 里 ,入 互 质 的 整数 的 个 数 。 其 中 双 是 
一 个 正 整 数 。 假 设 整 数 n 可 以 按照 质 因 数 分 解 写成 如 下 形式 : n 二 Pr X Pz X… XP ;其 


h, P,P, o, P" 为 质数 。 i sco 7n» [1 z)x(1 n)ex( >). 


4. RSA 密码 体系 公 钥 与 私 钥 生 成 方法 
RSA 密码 体系 公 钥 与 私 钥 生 成 方法 如 下 : 


ea 
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(1) 任意 选取 两 个 质数 户 和 9 , 设 n—pXq: 

(2) 函数 $(n) 为 Euler PRAC ig [nl J n B tjn 互 质 的 正 整数 个 数 ; 

G) 选择 一 个 正 整数 。, 使 其 与 $(n) 互 质 且 小 于 $60 , 公 和 钥 {e,n}) 已 经 确定 ; 
(4) 确定 d, 使 得 dXe 二 1%8$(n), 即 (dXe 一 1) %$(n) 二 0。 

至 此 , 私 钥 {d,n) 也 被 确定 。 


4.3 实例 编程 练习 


4.3.1 编程 训练 要 求 


本 章 训练 要 求 读 者 在 第 3 章 “ 基 于 DES 加 密 的 TCP 通信 ”的 基础 上 进行 二 次 开发 ,使 
原 有 程序 可 以 实现 自动 生成 DES 密 钥 以 及 基于 RSA 算法 的 密 钥 分 配 。 

(1) 要 求 在 Linux 平 台 上 完成 基于 RSA 算法 的 保密 通信 程序 的 设计 与 编写 。 

(2) 程序 必须 包含 DES 密 钥 自动 生成 .RSA 密 钥 分 配 以 及 DES 加 密 通信 等 3 个 部 分 。 

(3) 要 求 程 序 实现 全 双 工 通信 ,并 且 加 密 过 程 对 用 户 是 透明 的 。 

(4) 有 能 力 的 同学 可 以 使 用 select 模型 或 者 异步 1/O 模型 对 “基于 DES 加 密 的 TCP 通 
n" — WEB socket 通信 部 分 代码 进行 优化 。 


4.3.2 编程 训练 设计 与 分 析 


1. 程序 总 体 流程 

程序 执行 过 程 如 下 : 

CD 在 客户 端 与 服务 器 建立 连接 后 ,客户 端 首先 生成 一 个 随机 的 DES 密 钥 ,在 第 3 章 
的 程序 里 要 求 密 钥 长 度 为 64bit, 所 以 使 用 长 度 为 8 的 字符 串 充当 密 钥 ;同时 ,服务 端 生 成 一 
个 随机 的 RSA 公 钥 / 私 钥 对 ,并 将 RSA 公 钥 通过 建立 的 TCP 连接 发 送 到 客户 端 主机 。 

(2) 客户 端 主机 在 收 到 RSA 公 钥 后 ,使 用 公 钥 加 密 自 己 生成 的 DES 密 钥 ,并 将 加 密 后 
的 结果 发 送 给 服务 器 端 。 

(3) 服务 器 端 使 用 自己 保留 的 私 钥 解 密 客 户 端 发 过 来 的 DES 密 钥 ,最 后 双方 使 用 该 密 
钥 进 行 保密 通信 。 

程序 的 流程 图 如 图 4-2 Bros 。 

2. 模 乘 运算 和 模 窜 运 算 

模 乘 运算 即 计 算 两 个 数 的 乘积 然后 取 模 ,代码 如 下 : 


inline unsigned _ int64 MilMod(unsigned — inté4 a, unsigned __int64 b, unsigned — int64n) 
t 

retum (on) * (bèn) $n; 
1 


程序 为 了 提升 运算 速度 ,根据 求 模 运算 的 性 质 V z.y.n| ((z%n) X (yZ%n)) Yán— (z< 


Ven ,优化 了 算法 。 
模 宕 运算 即 首先 计算 某 数 的 若干 次 寡 , 然 后 对 其 结果 进行 取 模 运 算 ,函数 实现 的 代码 
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Server 1 Client 
I 
socket() 建 立 流 式 套 接 字 ， l ket() 建 立 流 式 套 接 
BERF S | 字 AMEE HS 
{ 
! | | 
建立 连接 ，accept0 返 回 [7 E | connect() 连接 
新 的 套 接 字句 柄 ns | 服务 器 指定 端口 
! I 
通过 bind). ERF s 与 1 1 | 
本 地 地 址 绑 定 生成 RSA 公 钥 / 私 钥 对 i 生成 DES 密 钥 
i | 
! L 
1 发 送 RSA 公 钥 。 | "syn | 使 用 公 铀 加 密 DES 密 
1isten0， 服 务 器 开始 监听 ， mr B 并 发 送 给 服务 器 中 
准备 接受 连接 1 1 
解密 DES 密 钥 | 
I 
' 1 i 
服务 器 进入 阻塞 状态 ， 循 环 mi O —] 3 pem 
等 待 客户 端 连 接 实现 DES 加 密 通 信 | _! 数 据 交换 | ”实现 DES 加 密 通 信 


1 
(关闭 套 接 字 ) 


图 4-2 程序 执行 流程 图 


ese 


如 下 : 


unsigned  int64 Powod (unsigned ^ int64 base, unsigned __int64 pow, unsigned — int64 n) 
t 
unsigned — int64 &-base, b- pow, œl; 
while(b) 
t 
while(!(b & 1)) 
t 
b>>=1; 
MMd(a, a, n); 


) 


BUT Vx. ys nl C96) X (yAn) Van — Cx X y)X n, Br VA | AHH V z, znl 
CGc96n)) Ven G2 Ven IP Va. B. y| y =y Xy., y =y, 

在 代码 中 ,笔者 根据 上 述 公式 进行 优化 。 变 量 分 别 代表 计算 过 程 中 未 完成 乘 方 运 
算 的 底数 和 指数 ,c 为 运算 中 间 变 量 , 用 于 存储 运算 结果 。 程 序 使 用 外 层 while 循环 用 来 凯 
历代 表 未 完成 乘 方 操作 的 次 数 b。 在 该 循环 内 ,首先 考虑 未 完成 的 乘 方 次 数 是 否 为 偶数 ,如 
果 为 偶数 , 设 5 二 2Xk, 则 根据 上 述 讨论 ,a*%n 二 a**%n 二 a*%n 二 (a?*%n)*%n。 内 层 的 
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while 循环 即 完成 此 操作 ,每 次 循环 ,6 变 为 原来 的 方 ,而 a EH a* Yin. 


内 层 循环 在 未 完成 乘 方 次 数 b 为 奇数 时 跳出 ,程序 继续 处 理 此 种 情况 。 基 于 上 述 讨论 ， 
设 0 一 2XA 十 1, 则 a^ Yin —a***! Vn (Ca n) Xa n) Von, TERRY PÄ 638 b 值 减 1, 然 
后 将 a%n 的 值 暂 存 在 变量 c 中 ,而 最 后 一 次 模 的 操作 将 在 4 一 1 程序 即将 返回 时 执行 。 

故 程序 循环 处 理 乘 方 操作 ,并 将 求 模 操 作 分 布 到 乘 方 运算 过 程 中 ,直到 全 部 乘 方 操作 运 
算 完 成 ,跳出 外 层 循环 并 将 结果 返回 。 


3. 生成 随机 的 大 质数 


本 文 使 用 基于 Fermat EM“ p 是 一 个 质数 ,整数 a 与 p 互 素 ,那么 a? 三 1%p” 的 Rabin- 
Miller 质数 测试 方法 进行 质数 判断 ,该 方法 是 一 种 基于 概率 的 质数 判别 方法 。 利 用 此 方法 
设计 质数 判别 函数 ,其 代码 如 下 : 


long RabirMillerKn] (unsigned ^ int64 &n) 
{ 
unsigned __int64 a, q, k, v; 
prl; 
k-0; 
while(! (qs) 


程序 首先 计算 出 g.k, 使 得 nn 一 1 二 qxX2Xk, 其 中 g 是 正 奇数 ,k 是 非 负 整数 (代码 
如 下 )。 


a= 2+ cRadam.Fandan (n- 3) ; 
v- Fodbd(a, q, n); 
if(v--1) 
t 

retum 1; 
} 


随机 取 一 个 数 a, 使 2 二 a 二 nn 一 1, 然 后 计算 a An, WMR ar%n 二 1, 则 通过 测试 ,表示 该 
数字 可 能 是 质数 (代码 如 下 )。 


for(int j=0;j<k;jt+) 
t 
unsigned int z-1; 
for (int w= 0;w< j;wt +) 
t 
z*-2; 
} 
if(PowMpid(a, z* q, n)==n 1) 
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retum 1; 
+ 


} 


最 后 循环 检验 a” %n(z 二 27) 的 值 ,如 果 该 值 等 于 一 1, 则 证 明 此 数字 可 能 是 一 个 质数 ， 
否则 该 数 为 合 数 。 

但 是 ,基于 Rabin-Miller 的 检验 方法 为 概率 算法 ,一 个 奇 合 数 有 1/4 的 概率 通过 检验 ， 
故 在 实际 应 用 中 ,需要 通过 多 次 重复 检验 ,以 增加 验证 正确 的 概率 。 

基于 重复 调用 Rabin-Miller 质数 判别 函数 的 代码 如 下 : 


long RabinMiller (unsigned ^ int64 ën, long logp- 100) 
t 
for(long i-0; i«locp; i++) 
t 
if(IRabirMillerKnl (n) ) 
t 
return 0; 


retum 1; 


在 完成 质数 判断 函数 Rabin-Miller 的 设计 后 ,进而 实现 质数 生成 函数 RandomPrime. 
其 代码 如 下 : 
1 
unsigned  inté4 base; 


do 
{ 
base (unsigned 1cng)1 << (bits- 1); // 保 证 最 高 位 是 1 
baset = cRadm. Pandom (pase) ; // 再 加 上 一 个 随机 数 
bese|-1; // 保 证 最 低位 是 1, 即 保证 是 奇数 
) while (!RabinMiller (pase, 30)); // 进 行 拉 宾 一 米 勒 测试 30 次 
return base; // 全 部 通过 认为 是 质数 


) 


该 函数 首先 生成 一 个 确保 最 高 位 是 一 (确保 足够 大 ) 的 随机 奇数 ,然后 ,检验 该 奇数 是 否 
是 质数 ,如 果 该 奇数 不 是 质数 , 则 重复 该 过 程 直 到 生成 所 需 的 质数 为 止 。 


4. 求 最 大 公约 数 
求 最 大 公约 数 的 代码 运用 了 欧 几 里 得 凶 转 相 除 法 ,其 代码 如 下 : 


unsigned _ int64 God(unsigned _ int64 &p, unsigned _ int64 &g) 
1 
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unsigned __int64 
unsigned — inté4 
unsigned — inté4 
f= 
{ 

return p; 


return a; 


EPP pug 
EKR p:q; 
t; 


// 两 数 相等 ,最 大 公约 数 就 是 本 身 


/ AS RETE god (a,b) - god (b, a- db) 


使 用 循环 遍历 法 也 可 以 计算 两 个 数 的 公约 数 ,但 是 运算 效率 较 低 。 


5. 私 钥 生 成 


计算 私 钥 主要 就 是 计算 d 的 值 .根据 第 3 节 介 绍 的 基础 知识 ,a 必须 满足 (d Xe 一 1)% 
#$(n) 二 0, 所 以 , 求 d( 已 知 e 和 $$(n)) 的 过 程 等 价 于 寻找 二 元 方程 eXd 一 $(n) X i—1 的 最 大 


整数 解 (i 为 另 一 未 知 量 ) 。 


程序 实现 的 代码 如 下 : 


unsigned —int64 Euclid(unsigned — int64 e, unsigned — int64t n) 


t 


unsigned — int64 Max- Oxffffffffffffffff- t. n; 
unsigned —int64i-1; 


while(1) 
t 


if((G* t n) 1)$e--0) 


t 


retum ((i* t n) 1)/e; 


} 


itt; 


unsigned — inté4 Tmp- (i+ 1) * t n; 


if (Trp> Mex) 
{ 
retum 0; 
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return 0; 
t 


程序 在 一 个 循环 中 不 断 从 小 到 大 尝试 可 能 的 i 值 , 何 时 $(n) Xi 十 1 能 被 e 整 除 , 则 返回 
对 应 的 d 值 ,程序 返回 ;否则 ,一 直 不 断 尝试 更 大 的 值 直到 数据 超过 阔 值 , 则 返回 0, 表 示 密 
钥 生 成 失败 。 


6. 密 钥 分 配 


为 了 方便 程序 编写 ,在 示例 代码 中 把 DES 加 密 、 解 密 和 RSA 加 密 、 解 密 的 代码 分 别 封 
装 在 类 CDesOperate 和 CRSASection 中 。 

在 CRSASection 中 导出 3 个 函数 ,分 别 用 来 进行 加 密 、 解 密 以 及 导出 密 钥 。 

(1) WE AŽ Encry( 代 码 如 下 ) 

static UINT64 Encry (unsigned short nSorce, Publickey &cKey) 

t 

return PoWwpd(nSorce, cKey.rE, cKey.rN); 
1 


此 函数 是 加 密 函 数 , 使 用 公 钥 , 通 过 模 备 运 算 实现 计算 C— M° mod n 的 加 密 过 程 ,由 于 
公 钥 本 身 并 不 始终 保存 在 类 的 成 员 变 量 里 ,所 以 加 密 函 数 设计 为 static, 并 通过 参数 传递 


(2) 解密 函数 Decry( 代 码 如 下 ) 


unsigned short Decry (UINT64 nsoroe) 

t 
UINT64 nRes- PowMod(nSorce, m cParament.d, m cParament.n); 
unsigned short * pRes- (unsigned short * )& (nFes); 
if(pRes[1]!- 0| |pRes[3] !- 0| | pRes [2] != 0) 
{//error 


return 0; 


return pFes[0] ; 


函数 Decry() 用 于 进行 解密 计算 , 即 实现 M — C mod n 的 计算 。 其 中 , 密 钥 由 保存 在 类 
成 员 变 量 中 的 结构 实体 m_cParament 提供 。 
G) 公 钥 获取 函数 GetPublicKey( 代 码 如 下 ) 


Riblickey GetPublickey() 
t 
Publickey chp; 


CImp.nE-this-»m cParament.e; 
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CImp.nN- this-»m cParament.n; 
retum cTrp; 
i 


本 函数 用 来 输出 当前 使 用 的 公 钥 ,其 中 PublicKey 是 一 个 结构 体 , 用 于 保存 公 钥 中 的 两 
个 整数 。 

加 密 函 数 的 输入 和 解密 函数 的 输出 为 短 整 型 变量 ,这 是 因为 虽然 理论 上 RSA 可 以 加 
密 , 解 密 任 意 小 于 的 整数 (x 为 64 位 ) ,但 是 在 中 间 计 算 中 仍 可 能 生成 大 于 的 临时 变量 。 
本 程序 为 了 简化 编写 并 未 使 用 专业 大 整数 函数 库 , 这 就 可 能 造成 如 果 加 密 函 数 输入 过 大 在 
进行 乘法 操作 时 溢出 。 故 限制 加 密 函 数 、 解 密 函 数 的 输入 输出 范围 为 短 整 型 。 

(4) 生成 公 钥 私 钥 

在 socket 连接 建立 起 来 以 后 ,首先 服务 端 通过 调用 函数 RsaGetParam() 初 始 化 与 RSA 
加 密 相关 的 各 项 参数 ,如 公 钥 , 私 钥 等 。 程 序 实 现 的 代码 如 下 : 


RsaParam RsaGetParam (void) 
t 
RsaParam Ræ (0); 
UINT64 t 
Rsa.p- RarckmPrime (16) ; // 随 机 生成 两 个 素数 
Rsa.qr Fancanrime (16) ; 
Rsa.n- Rsa.p* Rsa.q; 
Rsa.f- (Rsa.p- 1) * (Rsa.q- 1); 
do 
{ 
Rsa.e=m_cRadam.Randam (65536) ; 
Rsa.e|- 1; 
} while(God(Rsa.e, Rsa.f) !- 1); 
Rsa.d- Euclid(Rsa.e, Rsa.f); 
Rsa.s= 0; 
t-Rsa.n»» 1; 
while(t) 
t 
Rsa.st +; 
t»-L 
1 
Teturn Rsa; 
} 
这 个 函数 会 在 类 的 构造 函数 中 自动 调用 。 
(5) DES 密 钥 分 配 
此 后 ,程序 会 自动 进行 DES 密 钥 的 分 配 。 
O 首先 ,服务 端 生成 RSA 密码 的 公 钥 与 私 钥 ,并 将 私 钥 通 过 socket 传送 到 客户 端 。 服 
务 端 程序 实现 的 代码 如 下 : 


CRSASection cRsaSection; 
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cRsaPublicKey- cRsaSecticn.GetPublicKey() ; 
if(send(nAcoeptSocket, 
(char * ) (&cRsaPublicKey), sizeof (cRsaPublicKey),0) != sizeof (cRsaPdblicKey)) 


perror ("send"); 
exit (0); 


printf ("successful send the FSA public key. Wn"); 
) 
UINT64 nEncryptDesKey [DESKEYLENGIW/2] ; 
if (TESKEYIENSIH/2 * sizeof (UINT64) != TotalRecv (nhcoeptSocket,, 
(char * )rnEncryptDesKey, LESKEYLENGIB/2 * sizeof (UINT64) ,0) ) 


perror ("TotalRecv [ES key error"); 
exit (0); 


printf ("successful get the DES key. Vn"); 
unsigned short * pDesKey- (unsigned short * )strDesKey; 
for (int i= 0;i« IESKEYLENGIH/2; i + ) 
( 
FDesKey[i]= cRsaSection.Decry (rEncryptDesKey[i]) ; 


) 

printf ("Begin to chat... Vn"); 

SecretChat (nAcoeptSocket, inet ntoa (sRemoteAddr.sin addr) ,strDesKey) ; 

Close (nAcoeptSocket) ; 

© RP im Er JG 8] HI PR Ek GerenateDesKey O ^E JI Bi BL DES 密 钥 ,然后 获得 服务 端 提 供 
的 RSA 公 钥 ,并 使 用 该 公 钥 加 密 DES 密 钥 ,然后 将 加 密 后 的 DES 密 钥 发 回 给 服务 端 , 从 而 
实现 DES 密 钥 的 可 靠 共享 。 客 户 端 程序 实现 的 代码 如 下 : 

printf ("Connect Success! Nn"); 

GerenateDesKey (strDesKey) ; 

printf ("Create [ES key sucoess\n") ; 

if (sizeof (cRsaPublicKey)-— TotalRecv (nConnectSocket,, (char * )&cRsaPublicKey, 

sizeof (cRsaPublicKey),0)) 


printf ("Successful get the RSA public Key Wn") ; 


perror ("Get RA public key "); 
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exit (0); 
} 
UINT64 nEncryptDesKey [DESKEYIENSTH/2]; 
unsigned short * pDesKey- (unsigned short * )strDesKey; 
for (int i= 0;i< IESKEYTENGTH/2; i + ) 
( 
nEncryptDesKey[i]=CRSASection: :Encry (pDesKey [i], cRsaPublicKey) ; 
) 
if (sizeof (UINT64) * DESKEYLENGTH/2!= send(nConnectSocket, (char* )nEncryptDesKey, 
sizeof (UINT64) * TESKEYLENGIW/2, 0) ) 
( 
perror ("Send IES key Error"); 
exit(0); 
) 
else 
{ 
printf ("Successful send the encrypted IES Key\n"); 
) 
printf ("Begin to chat. . Vn") ; 
SecretChat (nConnectSocket,, strIpAddr, strDesKey) ; 
(6) 加 密 全 双 工 通信 
最 后 调用 函数 SecretChat() 实 现 加 密 全 双 工 通信 。 基 于 RAS 算法 的 密 钥 分 配 增加 了 
原 有 程序 的 安全 性 。 攻 击 者 只 能 通过 监听 截获 RSA 公 钥 和 使 用 RSA 公 钥 加 密 后 的 DES 
密 钥 , 却 无 法 获得 对 应 的 RSA 私 钥 , 故 无 法 解密 DES 密 钥 ,进而 可 以 保证 DES 加 密 通 信 的 
安全 性 。 
此 外 ,由 于 RSA 算法 执行 的 运算 量 较 大 ,所 以 只 使 用 RSA 算法 用 于 密 钥 共享 ,而 不 是 
直接 使 用 其 加 密 通信 内 容 , 以 降低 系统 资源 的 消耗 。 


4.4 扩展 与 提高 


4.4.1 RSA 安全 性 


RSA 算法 是 第 一 个 能 同时 用 于 加 密 和 数字 签名 的 算法 ,也 易于 理解 和 操作 。 同 时 它 也 
是 应 用 范围 最 广 的 公 钥 密码 体系 ,从 提出 到 现在 已 近 二 十 年 ,经 历 了 各 种 攻击 的 考验 ,逐渐 
为 人 们 所 接受 。 目 前 ,公众 普遍 认为 RSA 是 最 优秀 的 公 钥 方案 之 一 。 但 是 RSA 的 安全 性 
依赖 于 大 数 的 因子 分 解 ,但 并 没有 从 理论 上 证 明 破 译 RSA 的 难度 与 大 数 分 解难 度 等 价 。 即 
无 法 从 理论 上 证 明 不 可 能 存在 一 种 不 需要 进行 大 数 分 解 即 可 以 破解 RSA 的 算法 , 即 RSA 
的 重大 缺陷 是 无 法 从 理论 上 把 握 它 的 保密 性 能 如 何 , 而 且 密码 学 界 多 数 人 士 倾 向 于 因子 分 
解 不 是 NPC 问题 。 目 前 也 有 很 多 科学 家 在 相关 领域 进行 研究 。 

目前 ,对 RSA 算法 的 攻击 有 以 下 3 种 常用 算法 : 

(D 穷 举 攻击 : 试图 穷 举 所 有 可 能 的 私 钥 ; 

(2) 数学 攻击 : 方法 多 种 多 样 ,但 其 本 质 就 是 试图 分 解 , 求 得 p 和 g ,进而 推算 出 密 钥 ; 
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(3) 计时 攻击 : 这 类 算法 依赖 于 观测 解密 算法 的 运行 时 间 ,攻击 者 从 算法 运行 时 间 中 
获得 额外 信息 进行 攻击 。 

对 抗 穷 举 攻击 ,RSA 也 是 使 用 大 的 密 钥 空间 ,所 以 进行 选择 时 d 和 e 越 大 越 好 ,但 是 密 
钥 产生 过 程 和 加 密 解密 过 程 都 需要 经 过 复杂 的 运算 ,所 以 这 两 个 数 选择 得 越 大 ,加 密 解 密 所 
需 的 时 间 就 越 长 ,需要 程序 员 在 两 者 之 间 选 择 最 佳 的 平衡 点 。 

数学 攻击 主要 指 因 子 分 解 攻击 , 即 分 解 为 两 个 质 因子 ,从 而 计算 出 $8(m) — (p—1)X 
(g 一 1) ,根据 公式 dXe 三 1%8(n) ,进一步 根据 e 确定 d 的 取 值 ,从 而 猜测 密 钥 ,进行 破解 。 

目前 ,虽然 分 解 具有 大 质数 因子 的 仍然 是 一 个 难题 ,但 是 已 经 逐渐 被 科学 界 攻破 , 现 
在 破解 固定 长 度 公 钥 所 需要 的 时 间 正 在 逐年 递减 ,所 以 ,要 想 确 保 RSA 算法 的 安全 性 ,就 必 
须 保证 足够 大 ,此 外 RSA 的 发 明 者 建议 p 和 g 应 满足 下 列 条 件 : 

CD p Aq 的 长 度 应 仅 相 差 几 位 。 

(2) (p 一 1) 和 (g 一 1) 都 应 该 有 一 个 大 的 质 因 子 。 

(3) (p 一 1 和 (g 一 1) 的 最 大 公约 数 应 该 比较 小 。 

此 外 ,已 经 证 明 车 e<n 且 4d 记 n/4, 则 4 容易 被 确定 。 

至 于 计时 攻击 ,是 一 种 通过 记录 计算 机 解密 消息 所 用 时 间 来 确定 私 钥 的 一 种 攻击 方式 ， 
类 似 于 观察 他 人 转动 保险 柜 拨号 盘 的 时 间 长 短 来 猜测 密码 。 计 时 攻击 并 非 仅 针 对 RSA $E 
法 ,而 是 可 以 攻击 全 部 的 公 钥 密码 体系 ,所 以 其 危害 比较 严重 。 例 如 ,在 攻击 RSA 算法 时 ， 
因为 在 进行 加 密 时 所 进行 的 模 指数 运算 是 逐 位 进行 的 ,而 位 为 1 所 花 的 运算 比 位 为 0 的 运 
算 要 多 得 多 , 故 其 通过 观察 得 到 多 组 信息 与 其 加 密 时 间 ,就 可 以 尝试 反 推出 私 钥 的 内 容 。 

程序 编写 者 可 以 使 用 一 些 简单 的 办 法 来 防御 此 类 攻击 : 

(1) 保证 所 有 的 客运 算 在 返回 结果 之 前 所 用 的 时 间 相 同 。 

(2) 在 求 寡 算 法 中 加 入 随机 延 时 。 

(3) 通过 执行 寡 运 算 前 将 密 文 乘 上 一 个 随机 数 进行 隐藏 。 

总 之 ,就 目前 的 技术 水 平 来 说 ,分 解 依然 是 针对 RSA 算法 最 主要 的 攻击 方法 。 现 在 ， 
现 有 技术 水 平 已 经 能 分 解 140 位 (十 进 制 ) 的 大 素数 。 因 此 , 模 数 必须 尽量 选择 大 数 ,才能 
保证 RSA 算法 的 安全 性 。 在 实际 应 用 中 ,1997 年 后 开发 的 系统 ,已 经 使 用 了 1024 位 密 钥 ， 
而 安全 要 求 较 高 的 证 书 认证 机 构 采 用 2048 位 或 以 上 密 钥 。 


4.4.2 其 他 公 钥 密码 体系 


椭圆 曲线 密码 学 (Elliptic Curve Cryptography,ECC) 是 基于 椭圆 曲线 数学 的 一 种 公 钥 
密码 方法 。 椭 圆 曲 线 在 密码 学 中 的 使 用 是 在 1985 年 由 Neal Koblitz 和 Victor Miller 分 别 
独立 提出 的 。 

椭圆 曲线 密码 体制 来 源 于 对 椭圆 曲线 的 研究 ,所 谓 椭 圆 曲 线 指 的 是 由 韦 尔 斯 特 拉 斯 
(Weierstrass) 方 程 所 确定 的 平面 曲线 。 其 并 非 真 的 椭圆 曲线 ,只 是 因为 其 方程 形式 类 似 求 
解 椭圆 形 周 长 的 公式 故 得 其 名 ,椭圆 曲线 密码 体制 中 用 到 的 椭圆 曲线 都 是 定义 在 有 限 域 上 
的 , 即 最 终 方程 形式 如 下 : y mod p= Ge +az-+b) mod p. 

首先 定义 椭圆 曲线 加 法 运算 规则 : 车 椭圆 曲线 上 的 3 个 点 在 同一 条 直线 上 , 则 其 和 
为 零 。 

设 两 点 已 和 Q, 则 在 方程 AP = Q 中 .已 知 & 和 点 卫 求 点 Q 比较 容易 ,反之 已 知 点 Q 和 
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AÀ POR k 却 很 困难 ,这 个 问题 称 为 椭圆 曲线 上 点 群 的 离散 对 数 问题 。 椭 圆 曲 线 密码 体制 正 
是 利用 这 个 困难 问题 设计 而 来 。 

椭圆 曲线 密码 体制 是 目前 已 知 的 公 钥 体制 中 ,对 每 比特 所 提供 加 密 强 度 最 高 的 一 种 体 
制 。 解 椭圆 曲线 上 的 离散 对 数 问题 的 最 好 算法 是 Pollard rho 方法 ,其 时 间 复 杂 度 是 完全 指 
数 阶 的 。 当 密 钥 大 小 为 150 时 ,破解 需要 3. 8X10”MIPS。MIPS 表示 每 秒 钟 处 理 的 百 万 
级 的 机 器 语言 指令 数 ,是 衡量 CPU 速度 的 一 个 指标 。 当 密 钥 增 大 到 234 时 ,破解 时 间 就 可 
达到 1.6 102 MIPS 年 (MIPS 年 是 指 每 秒 运行 百 万 条 指令 的 处 理 器 运行 一 年 的 计算 量 ) 。 
而 大 家 熟知 的 RSA 算法 所 利用 的 是 大 整数 分 解 的 困难 问题 ,目前 对 于 一 般 情况 下 的 因数 分 
解 的 最 好 算法 的 时 间 复 杂 度 是 子 指数 阶 的 , 当 密 钥 长 度 为 512 时 ,只 需要 3> 10! MIPS 年 ， 
即便 密 钥 长 度 增长 到 2048 ,破解 时 间 也 不 过 增加 到 3X10”MIPS 年 。 即 当 RSA 的 密 钥 使 
用 2048 位 时 ,ECC 的 密 钥 使 用 234 位 所 获得 的 安全 强度 比 RSA 密 钥 的 安全 强度 要 高 出 许 
多 。 但 它们 之 间 的 密 钥 长 度 却 相差 9 倍 , 当 ECC 的 密 钥 更 大 时 它们 之 间 的 差距 将 更 大 。 可 
见 ECC 密 钥 短 的 优点 是 非常 明显 的 。 

国家 标准 与 技术 局 和 ANSI X9 已 经 设 定 了 最 小 密 钥 长 度 的 要 求 ,RSA 和 DSA 是 1024 
位 ,ECC 是 160 位 ,相应 的 对 称 分 组 密码 的 密 钥 长 度 是 80 位 。NIST 已 经 公布 了 一 系列 推 
荐 的 椭圆 曲线 用 来 保护 5 个 不 同 的 对 称 密 钥 大 小 (80、112、128、192、256)。 一 般 而 言 ,二 进 
制 域 上 的 ECC 需要 的 非 对 称 密 钥 的 大 小 是 相应 的 对 称 密 钥 大 小 的 2 倍 。 

在 2005 年 2 月 16 日 ,NSA 宣 布 决定 采用 椭圆 曲线 密码 的 战略 作为 美国 政府 标准 的 一 
部 分 ,用 来 保护 敏感 但 不 保密 的 信息 。 


4.4.3 使 用 Select 机 制 进行 并 行 通信 


1. Linux select MO 操作 方式 简介 


为 了 提升 程序 效率 ,Linux 提供 了 select 函数 接口 ,用 以 同时 管理 若干 个 套 接 字 或 者 句 
柄 上 的 I/O 操作 ,通过 该 API, 程 序 可 以 同时 监控 多 个 socket 或 者 句柄 上 的 1/0 操作 ,进而 
可 以 免 去 开启 多 个 进程 的 系统 开销 。 函 数 定义 如 下 。 


int select (int n fd set* readfds, fd set* writefds,fd set* exceptfds, 

struct timeval* timeout) 

其 中 ,参数 n 代表 最 大 文件 句柄 ,必须 赋值 为 监控 的 全 部 句柄 中 的 最 大 值 加 一 ,参数 
readfds、writefds 和 exceptfds 对 应 3 个 句柄 集合 ,用 来 通知 系统 分 别 监控 发 生 在 对 应 集合 
中 所 包括 句柄 上 的 读 、 写 或 错误 输出 事件 。 

下 面 的 一 组 宏 用 于 操作 上 述 句柄 。 

(D FD_CLR(inr fd,fd_set * set): 用 来 清除 句柄 集合 set 中 相关 fd 的 项 ; 

(2) FD_ISSET(int fd.fd set * set) ; 用 来 测试 句柄 集合 set 中 相关 fd 的 项 是 否 为 真 ; 

(3) FD_SET(int fd.fd set * set) ; 用 来 设置 句柄 集合 set 中 相关 fd 的 项 ; 

(4) FD_ZERO(fd_set * set): 用 来 清除 句柄 集合 set 的 全 部 项 。 

参数 timeout 为 结构 timeval, 用 来 设置 函数 select() 的 等 待 时 间 ,其 结构 定义 如 下 。 
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如 果 参 数 timeout 设 为 NULL, 则 表示 select() 函 数 一 直 等 待 不 会 超时 。 

函数 执行 成 功 则 返回 文件 句柄 状态 已 改变 的 个 数 ,如 果 返 回 0 则 代表 在 句柄 状态 改变 
前 已 超时 , 当 有 错误 发 生 时 则 返回 一 1, 并 将 错误 原因 存 于 errno 中 。 

(1) EBADF : 文件 句柄 为 无 效 的 或 该 文件 已 关闭 ; 

(2) EINTR: 此 调用 被 中 断 ; 

(3) EINVAL: 参数 n 为 无 效 ; 

(4) ENOMEM: 核心 内 存 不 足 。 


2. 使 用 select 优化 函数 SecretChat 
使 用 select O 函数 重 写 后 的 SecretChat() 函 数 代码 如 下 。 


void SecretChat (int nSock har * pRemoteName, char * pKey) 
{ 


int npet; 
初始 化 相关 变量 ,并 在 一 个 循环 中 监控 套 接 字 和 标准 输入 (代码 如 下 )。 


while(1) 
t 
FD ZEFO (scHandleSet) ; 
FD SET(nSock, &cHandleSet); 
FD SET(0, &cHandleSet); 
tv.tv sec-l; 
tv.tv usec-0; 
TRet- select (nSock» 0? nSock* 1:1, &cHandleSet, NULL, NULL, &tv); 


这 里 可 见 ,程序 只 监控 套 接 字 和 标准 输入 上 的 读 操 作 。 并 分 别 进行 处 理 ; 此 外 ,每 循环 
一 次 ,程序 就 必须 重新 设置 句柄 集合 中 的 内 容 ( 代 码 如 下 )。 


if (rRet< 0) 
{ 
printf ("Select ERRCR! Wn") ; 
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} 


在 排除 超时 和 出 错 的 可 能 后 ,程序 通过 下 面 的 两 个 让 语句 分 别 判断 套 接 字 和 标准 输入 
上 是 否 发 生 了 I/O 操作 ,如 有 发 生 , 则 调用 recvO 函数 进行 读 取 ,并 处 理 获得 的 数据 。 


if (FD ISSET (nSock, gcHandleSet)) 


t 


bzero(&strSocketBuffer, BUFFFRSIZE) ; 
int nLength- 0; 
riLength- TotalRecv (nSock, strSocketBuffer, BUFFERSIZE, 0) ; 
if(nLength != BUFFFFSIZE) 
t 
break; 


int nLen- BUFFEFSIZE; 


cDes.Decry (strSocketBuffer, BUFFERSIZE, strDecryPuffer, nLen, pKey, 8) ; 
strDecryBuffer [BUFFERSIZE- 1]- 0; 
if (strDecryBuffer [0] != O&&strDecryBuffer [0] != 'Nn') 
t 
printf ("Receive message form < $ s» : $ s\n", pRemoteName, strDecryBuffer) ; 
if(0- —menrp "quit", scrDecryBuffer,4) ) 
I 
printf ("Quit!\n"); 
break; 


if(FD ISSET(0,&cHandleSet)) 


t 


bzero(&strStdinBuffer, BUFFEFSIZE); 
while (strStdinBaffer[0]-— 0) 
t 
if (fgets(strStdinBuffer, BUFFEFSIZE, stdin)- — NULL) 
t 
continue; 


} 

int nlen- BUFEERSIZE; 

cDes.Encry (stzStdinBuffer, BUFFERSIZE, strEncryButfer, nLen, Key, 8) ; 
if (send (nSock, strEncryBuffer, BUFEERSIZE, 0) != BUFFFRSIZE) 
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perror ("send") ; 


if(0- —memcmp ("quit", strStdinBuffer, 4) ) 
t 

printf ("Quit!Wn") ; 

break; 


) 


4.4.4 使 用 异步 /O 进行 通信 优化 


1. 同步 VO 操作 和 异步 1/0 操作 的 比较 


Linux 还 提供 了 一 种 异步 I/O 机 制 对 程序 效率 进行 优化 。 一 般 同 步 1⁄O 调用 会 在 系统 
1/0 操作 完成 后 返回 ,在 该 1/O 未 能 完成 时 调用 函数 会 将 调用 进程 挂 起 等 待 ;而 异步 1/O 调 
用 会 在 系统 调用 后 直接 返回 ,在 系统 内 核 真 正 完成 调用 后 ,通过 消息 或 者 回调 函数 通告 调用 
进程 本 次 IO 的 执行 结果 。 图 4-3 和 4-4 给 出 了 Linux 系统 同步 /0 与 异步 1/0 操作 的 
区 别 。 


初始 化 1O 读 请 求 


VO 读 返 回 


E 
[4 
3 
E 
Pu 
系统 调用 read) 


数据 从 内 核 返 回 到 应 用 层 


V. 


图 4-3 Linux 同步 1/O 执行 过 程 示意 图 


使 用 异步 1/O 需要 包含 头 文件 二 aio. h 二 ,并 在 编译 时 指定 编译 选项 g + 十 chat. 
cpp-lrt。 


[a 


milf 
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应 用 层 核心 层 
I 
I 
| 


调用 aio. read()API 


I 
I 
I 
I 
I 
At VO 请 求 | 
I 


系统 调用 : 内 核 上 下 文 切换 


初始 化 IO 读 请 求 


VO 读 返 回 
数据 通过 signal 或 者 回调 
函数 从 内 核 返 回 到 应 用 层 


处 理 获得 的 数据 


调用 进程 执行 
其 他 操作 


图 4-4 Linux 525 1/0 执行 过 程 示意 图 


异步 1/O 调用 主要 需要 以 下 API PRA 

(1) aio_read(): 请 求 异 步 读 操作 ; 

(2) aio. errorO ; 检查 异步 请 求 的 状态 ; 

(3) aio_return() : 获得 完成 的 异步 请 求 的 返回 状态 ; 

(A) aio, writeO ; 请 求 异步 写 操作 ; 

(5) aio_suspend() : 挂 起 调用 进程 ,直到 一 个 或 多 个 异步 请 求 已 经 完成 (或 失败 ); 

(6) aio_cancel(): 取消 异步 1/O 请 求 ; 

(7) lio listI/OO : 发 起 一 系列 1/0 操作 。 

其 中 ,由 于 在 异步 非 阻塞 1/O 中 ,程序 可 以 同时 发 起 多 个 传输 操作 。 所 以 程序 要 求 每 
个 传输 操作 都 有 唯一 的 上 下 文 ,以 便 在 收 到 内 核 /O 完成 通知 时 区 分 该 /O 通知 是 来 自 哪 
^r VO 请 求 。 这 个 工作 由 aiocb 结构 完成 。 该 结构 包含 了 有 关 传 输 的 所 有 信息 ,包括 为 数 
据 准 备 的 用 户 缓冲 区 ,通知 的 方式 、 回 调 函 数 的 地 址 和 参数 等 。 在 调用 1/O 请 求 API 时 , 程 
序 为 该 结构 体 赋值 ,并 将 该 结构 体 的 地 址 以 参数 形式 传人 内 核 。 


2. 使 用 异步 VO 优化 函数 SecretChat 
下 述 示例 程序 就 是 通过 异步 I/O 进一步 优化 函数 SecretChat() 的 执行 效率 。 


void SecretChat (int nSock, char * pRemoteName, char * pkey) 
{ 

pid t nPid; 

nPid-fork(); 

sem t bStop; 

sem init (&bStcp,0,0) ; 

if(nPid!- 0) 

t 
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SockinSingle* pSockin- new SockinSingle (rKey, nSock,bStop); 
aio read(pSockin- >m pReg); 
sem wait (ghStop); 


Stdinsingle* pStdin- new Stdinsingle (Key, nsock,bStop) ; 
aio read(pStdin- >m pReg); 
sem wait (SkStop) ; 
} 
sem destroy (&bStop) ; 
) 


程序 创建 了 两 个 进程 ,分 别 在 标准 输入 和 socket 上 发 起 一 个 异步 读 操作 ,然后 就 通过 
sem wait O 函数 等 待 程序 结束 。 所 有 的 数据 操作 都 在 对 应 1/0 结束 后 的 回调 函数 中 进行 。 

由 于 监控 socket 和 监控 标准 输入 的 两 个 进程 工作 流程 基本 一 致 。 所 以 在 此 只 分 析 监 
控 标 准 输入 的 进程 。 监 控 socket 的 相关 代码 可 参考 随 书 光 盘 的 内 容 。 

监控 标准 输入 的 进程 由 类 StdinSingle 完成 ,代码 如 下 。 


class Stdinsingle 
t 
public: 
StdinSingle (char * pKey,int nSock,sem t &bStop) 
:m bStop (bStop) 
t 
memcpy (n. strKey, pKey, 8) 7 
m strKey[8]- 0; 
this-»m nSock-nSock; 
bzero(&strStdinBuffer, BUFFERSIZE); 
this- >m pReq- new aiodo; 
bzero((char* )m pFeg, sizeof (struct aiod»)) ; 
m pFeq- »aio fildes-0; 
m pFeq- »aio buf- strStdinBuffer; 
m pReq- > aio nbytes- BUFFEESIZE; 
m FReq- »aio offset-0; 
m pReq-»aio sigevent.sigev notify- SIGEV THREAD; 
m pReq-»aio sigevent. sigev un. sigev thread. function- 
StdinFeadCampleticnHandler; 
m pReq-»aio sigevent. sigev un. sigev thread. attribute- NULL; 
m pReq-»aio sigevent.sigev value.sival ptr- this; 
E 
~ StdinSingle() 
t 
delete m peg; 
bzero(&strStdinBuffer, BUFFFRSIZE); 


du 
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E 
charm strKey[9]; 
int m nSock; 
aiodo* m pReg; 
sem t &m bStop; 
static void StdinReadCampletionHandler (sigval t sigval) 
t 
StdinSingle* pIhis= (StdinSingle* )sigval.sival ptr; 
if (aio error(pIhis- >m pReg)-- 0) 
t 
int nSize-aio retum (plhis- >m pReg); 
CDesOperate cDes; 
int nlen- BUFFFRSIZE; 
cDes.Encry (strStdinBuf fer, BUFFERSIZE, stxEncryBuf fer, nLen, phis > 


m strKey,8); 

SockcutSingle * pSockoutSingle- new SockcutSingle ( 
plhis-»m nSock, 
plhis-»m strkey, 
plhis-»m bStop); 

aio write(pSockcutSingle- >m pReq) ; 


if(0- — mencrp ("quit", stxStdinBuffer,4)) 
t 

printf ("Quit!Nn") ; 

sem post (&pIhis- >m bStop); 


exit(0); 


delete pIhis; 


k 

这 个 类 主要 在 构造 函数 中 初始 化 相关 的 aiocb 结构 ,并 指定 其 回调 函数 指针 为 
StdinReadCompletionHandler。 

在 该 函数 中 ,程序 处 理 从 标准 输入 读 到 的 数据 ,并 将 其 加 密 , 然 后 通过 SockoutSingle 类 
调用 aio_write(pSockoutSingle~>m_pReq) 将 加 密 后 的 数据 发 送出 去 。 

SockoutSingle 类 的 代码 如 下 。 


Class SockoutSingle 
t 
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SockcutSingle (int Sock, char * pKey,sem t &Stcp) 


J; 


zm bStcp (bStop) 


memcpy (m strKey,pFey, 8) ; 

m strKey[8]- 0; 

this- >m nSock-nSock; 

this- >m pReq- new aiocb; 

bzero ( (char * )m pReg, sizeof (struct. aiocb)); 

m gpFeq- > aio fildes-nSock; 

m rReq- > aio buf- strEncryBuffer; 

m rReq- > aio nbytes- BUFFEFSIZE; 

m peg > aio offset-0; 

m pReq-»aio sigevent.sigev notify- SIGEV THREAD; 

m pReq-»aio sigevent. sigev un. sigev thread. functicn- 
SockcutReacOampleticnHandler; 

m pReq-»aio sigevent. sigev un. sigev thread. attribute- NULL; 
m peg >aio sigevent.sigev value.sival ptr- this; 


^ SockoutSingle () 


t 


J 


delete m pFeg; 


Static void SockoutReadCampletionHandler (sigval t sigval) 


t 


SockoutSingle * pIhis= (SockoutSingle * )sigval.sival ptr; 
if (eio error (pIhis- >m pReg)-- 0) 
{ 
int nSize=aio return(plhis- >m FReq) ; 
if (nSize!= BUFFEFSIZE) 
I 
perror ("Error Send!\n"); 


StdinSingle * pStdin- new StdinSingle (pIhis- >m strKey, 
phis- >m nSock, 
phis- >m bStop); 


zisa 
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这 个 类 的 工作 流程 和 StdinSingle 基本 相同 ,其 工作 主要 在 回调 函数 SockoutRead- 
CompletionHandler 中 完成 。 

当 加 密 数据 下 发 送 完成 后 ,函数 SockoutReadCompletionHandler() 被 调用 ,该 函数 在 
标准 输入 上 发 起 读 操作 ,从 而 驱动 类 StdinSingle 继续 工作 。 标 准 输入 读 和 数据 后 会 再 次 调 
用 类 StdinSingle 中 指定 的 回调 函数 StdinReadCompletionHandler() 。 如 此 循环 ,直到 用 户 
输入 “quit” 命 令 , 类 StdinSingle 通过 sem. post( S pThis- m bStop) i t fi 9 fit , š A1 3 E 
程 结束 ,并 自行 退出 。 

异步 模型 的 执行 效率 优势 如 何 体现 呢 ? 每 次 Linux 系统 调用 就 会 在 内 核 和 用 户 态 之 间 
进行 一 次 上 下 文 切换 ,需要 消耗 系统 资源 ,使 用 异步 I/O 模型 ,两 个 主 进程 在 发 起 第 一 次 读 
操作 后 就 通过 sem_wait() 函 数 等 待 ,直到 结束 直接 退出 ,整个 过 程 中 都 不 需要 进行 上 下 文 
切换 ,而 真正 进行 数据 操作 的 回调 函数 也 都 是 在 1/0 状态 变化 的 时 刻 由 内 核 自动 调用 的 。 
可 见 , 这 个 模型 可 以 消除 无 谓 进 程 上 下 文 切换 所 需 的 资源 ,进而 大 大 提升 系统 的 执行 效率 。 

此 外 , 当 系 统 同时 处 理 若干 个 socket 上 的 并 发 数据 时 ,异步 1/O 可 以 使 单个 进程 具有 
监督 多 个 socket 上 数据 的 能 力 , 从 而 大 量 节约 所 需 进程 的 数目 ,大 幅 降低 所 需要 的 系统 资 
源 , 提 升 程序 效率 。 
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5.1 本 章 训练 目的 与 要 求 


MD5 是 目前 最 流行 的 信息 摘要 算法 ,已 广泛 应 用 于 数字 签名 ,文件 完整 性 检测 等 领域 。 
熟悉 MD5 算法 对 于 开发 安全 的 网 络 应 用 程序 具有 重要 的 意义 。 

本 章 训练 的 主要 目的 是 : 

(1) 理解 MD5 算法 的 基本 原理 。 

(2) 掌握 利用 MD5 算法 生成 数据 摘要 的 计算 方法 。 

(3) 掌握 将 MD5 算法 应 用 于 文件 完整 性 校 验 软件 的 基本 设计 与 编程 方法 。 

(4) 掌握 在 Linux 操作 系统 中 检测 文件 完整 性 的 基本 方法 。 

本 章 编程 训练 的 要 求 如 下 : 

(1) 正确 地 实现 MD5 算法 的 计算 过 程 。 

(2) 对 于 任意 长 度 的 字符 串 能 够 生成 128 位 MD5 摘要 。 

(3) 对 于 任意 长 度 的 文件 能 够 生成 128 位 MD5 摘要 。 

(4) 通过 检查 MD5 摘要 来 检验 原文 件 的 完整 性 。 


5.2 相关 背景 知识 


5.2.1 MD5 算法 的 主要 特点 


MD5(Message-Digest Algorithm 5) 是 一 种 信息 摘要 算法 。 信 息 摘 要 算法 的 研究 由 来 
已 久 , 早 在 1990 年 Ronald L. Rivest 就 提出 了 与 MD5 Jš T [8] — RIIA KZ MD4。 经 
过 大 量 的 密码 学 分 析 与 不 断 的 攻击 检测 ,Rivest 于 1991 年 提出 了 MD4 的 改进 算法 MD5 。 
目前 MD5 已 经 得 到 了 广泛 的 应 用 ,成 为 许多 机 构 和 组 织 的 散 列 函 数 标准 。 

作为 散 列 函 数 ,MD5 有 以 下 两 个 重要 特性 : 

CD 任意 两 组 数据 经 过 MD5 运算 后 ,生成 相同 摘要 的 概率 极 小 。 

(2) 即使 在 算法 与 程序 已 知 的 情况 下 ,也 不 能 从 MD5 摘要 中 反 推 出 原始 数据 。 

MD5 的 典型 应 用 就 是 为 一 段 信息 (message) 生 成 信息 摘要 (message-digest) ,以 防止 传 
输 的 数据 被 算 改 。Linux 系统 自 带 了 计算 和 校 验 MD5 摘要 的 工具 程序 一 一 md5sum。 用 户 
可 以 在 命令 行 终端 直接 运行 该 程序 。md5sum 程序 可 以 创建 一 个 与 原始 文件 名 称 相同 ,后 
28g. md5 的 文件 ,并 将 原始 文件 的 MD5 摘要 保存 在 该 文件 中 (代码 如 下 所 示 )。 对 于 文件 
nankai. txt. f| f] md5sum 程序 计算 出 它 的 摘要 (3c771aea5b7e191408ab6b0372ecbf0c) 并 保 
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存在 文件 nankai. md5 中 。 


[root& localhost MD5]# cd md5somy 
[root& localhost md5sum]# 1s 
nankai txt. 
[root localhost md5sum]# md5sum nankai .txt> nankai .md5 
[root8 localhost md5sum]# 1s 
[root localhost md5sum]# vim nankai .md5 
1 3cTllaeaSb7el91408ab8-0372ecbf0c nankai.txt 


同时 ,md5sum 程序 可 以 对 文件 的 完整 性 进行 检测 。 它 通过 重新 计算 原始 文件 的 MD5 
摘要 ,将 计算 结果 与 同名 的 . md5 文件 中 的 摘要 进行 对 比 , 若 相同 , 则 说 明文 件 完整 ;否则 ， 
说 明 原 文件 受到 了 破坏 。 如 下 所 示 ,程序 共 包含 了 两 次 检验 。 第 1 次 通过 比较 nankai. md5 
中 的 摘要 来 验证 文件 nankai. txt 是 完整 的 。 第 2 次 修改 了 nankai. txt 文件 的 内 容 ( 在 标题 
后 面 增加 了 written by sky) ,导致 校 验 失败 。 


[root localhost md5sum]# md5sum - c nankai .md5 
nankai.txt: CK 
[root localhost md5sum]# vim nankai .txt. 
lAbout Nankai University ^ (written by sky) 
2 
3 A key miltidisciplinary and research- oriented university directly under the jurisdiction 
of the Ministry of Education, Nankai University, located in Tianjin on the border of the sea of Bohai, is 
also the alma mater of our beloved late Premier Zhou Enlai. 


[root@ localhost md5sum]# md5sum - c nankai .md5 
nankai.txt: FAILED 
md5sum: WARNING: 1 of 1 omputed checksum did NOT match 


5.2.2 MD5 算法 分 析 
MD5 算法 分 为 3 个 步骤 : 消息 的 填充 与 分 割 、 消 息 块 的 循环 运算 和 摘要 的 生成 。 


1. 消息 的 填充 与 分 割 


MD5 算法 以 512bit 为 单位 对 输入 消息 进行 分 组 。 每 个 分 组 是 一 个 512bit 的 数据 块 。 
同时 每 个 数据 块 又 由 16 个 32bit 的 子 分 组 构成 。 摘 要 的 计算 过 程 就 是 以 512bit 数据 块 为 
单位 进行 的 。 

在 MD5 算法 中 ,首先 需要 对 输入 消息 进行 填充 ,使 其 比特 长 度 对 512 求 余 的 结果 等 于 
448。 即 消息 的 比特 长 度 将 被 扩展 至 NX512 十 448, 即 NX64 十 56 个 字 节 , 其 中 N WE 
整数 。 

具体 的 填充 方法 是 : 在 消息 的 最 后 填充 一 位 1 和 若干 位 0 ,直到 满足 上 述 条 件 时 才 停止 
用 0 对 消息 进行 填充 。 然 后 在 填充 部 分 的 后 面 用 一 个 64 位 二 进 制 数 表示 填充 前 消息 的 长 
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度 。 经 过 这 两 步 的 处 理 ,现在 消息 的 比特 长 度 二 NX512 十 448 十 64 二 (N 十 1) X512。 因 为 
长 度 恰好 是 512 的 整数 倍 ,所 以 在 下 一 步 中 可 以 方便 地 对 消息 进行 分 组 运算 。 


2. 消息 块 的 循环 运算 


MD5 算法 包含 4 个 初始 向 量 、5 种 基本 运算 和 4 个 基本 函数 。 

CD 初始 向 量 

MD5 算法 中 有 4 个 32bit 的 初始 向 量 。 它 们 分 别 是 : A=0x01234567,B=0x89abcdef, 
C=0xfedcba98,D=0x76543210。 

(2) 基本 运算 

5 种 基本 运算 是 指 : 

(D X. X WZ bit 逻辑 “ 非 " 运 算 ; 

© XAY: XY WZ bit 逻辑 “与 ?运算 ; 

© XVY: XY 的 逐 bit 逻辑 “或 "运算 ; 

@ XOY: XY 的 逐 bit BA RR ZH 

O X<<<s; X 循环 左 移 : 位 。 

(3) 基本 函数 

MD5 算法 中 的 4 个 非 线性 基本 函数 分 别 用 于 4 轮 计算 。 它 们 分 别 是 : 

O F(z,y,z)=(zAy)V (Z Az) 

@ G(z,y,z) GA V Cy Az) 

© HG. yz) —ayOz 

@ Ix. y 2 — yr V 2) 

在 设置 好 4 个 初始 向 量 以 后 ,就 进入 MD5 的 循环 过 程 。 循 环 过程 就 是 对 每 一 个 消息 分 
组 的 计算 过 程 。 每 一 次 循环 都 会 对 一 个 512bit 消息 块 进行 计算 ,因此 循环 的 次 数 就 是 消息 
中 512bit 分 组 的 数目 , 即 (N 十 1)。 

在 一 次 循环 开始 时 ,首先 要 将 初始 向 量 A、B.C.D 中 的 值 保存 到 向 量 A。、Bo、Co、D。 中 ， 
然后 再 继续 后 面 的 操作 ,如 下 式 所 示 。 

A=A B=B C,=C D-D 

MD5 循环 体 中 包含 了 4 轮 计算 (MD4 只 有 3 轮 ) ,每 一 轮 计算 进行 16 次 操作 。 每 一 次 
操作 可 概括 如 下 : 

(D Mi ABCD 中 任意 选取 3 个 向 量 作 一 次 非 线 性 函数 运算 。 

O 将 所 得 结果 与 剩 下 的 第 4 个 变量 、 一 个 32bit 子 分 组 X[k] 和 一 个 常数 TL: AB), 

C) 将 所 得 结果 循环 左 移 ;位 ,并 从 向 量 A、B、C.D 中 选取 一 个 与 之 相 加 ;最 后 用 该 结果 
取代 剩余 三 者 之 一 的 值 。 

在 第 1 轮 计 算 中 ,如 果 用 表达 式 FF[abed. k. s. 襄 表 示 如 下 的 计算 过 程 , 则 第 1 轮 的 
16 次 操作 可 以 表示 为 : 

a=b+((a+I(b,c,d)+X[k] -T[;]) <<< 


FF[AEC, 0, 7, 1] EF DA, 1, 12, 2] FF [QB, 2, 17, 3] FF BD, 3, 22, 4] 
EF [BECD, 4, 7, 5] EF DA, 5, 12, 6] FF [CIDPB, 6, 17, 7] EF B, 7, 22, 8] 
FF [BBCD, 8, 7, 9] — EF DA, 9, 12, 10] FF [CD#B, 10, 17, 11] FEF BE, 11, 22, 12] 


aa 
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FF [ABCD, 12, 7, 13] FF DOA, 13, 12, 14] FF [CDPB, 14, 17, 15] FF B, 15, 22, 16] 


在 第 2 轮 计算 中 ,如 果 用 表达 式 GG[abed. k, s. 订 表 示 如 下 的 计算 过 程 , 则 第 2 轮 的 
16 次 操作 可 以 表示 为 : 
a=6 二 ((a+G(6,c,d)+X[kJ+T[i])<<<s) 


GG ABCD, 1, 5, 17] GS PA, 6, 9, 18] G5 [CHRB, 11, 14, 19] GS B, 0, 20, 20] 
G3 [ARCD, 5, 5, 21] GG DŒ, 10, 9, 22] Œ [CIPB, 15, 14, 23] GS B, 4, 20, 24] 
G3 [ARCD, 9, 5, 25] GG [DREC, 14, 9, 26] Œ [CIPB, 3, 14, 27] GS [ECTA, 8, 20, 28] 
GG [ABCD, 13, 5, 29] — GS [DREC, 2, 9, 30] G5 [CIPB, 7, 14, 31] GS B, 12, 20, 32] 


在 第 3 轮 计 算 中 ,如 果 用 表达 式 HHLabcd, k, s, i] Ron n FE Ear e DU 3 轮 的 
16 次 操作 可 以 表示 为 : 
a=b+((a+H(b,c,d)+X[k]+TGD<<<s) 


HH [ABCD, 5, 4, 33] HH [DAEC, 8, 11, 34] HH [CIPB, 11, 16, 35] HH B, 14, 23, 36] 
HH [ABCD, 1, 4, 37] HH [DREC, 4, 11, 38] HH [CIPB, 7, 16, 39 HH B, 10, 23, 40] 
HH [ABCD, 13, 4, 41] HH [DABC, 0, 11, 42] HH [CIPB, 3, 16, 43] HH B, 6, 23, 44] 
HH [ABCD, 9, 4, 45] HH [DBBC, 12, 11, 46] HH [CIPB, 15, 16, 47] HH B, 2, 23, 48] 


在 第 4 轮 计算 中 ,如 果 用 表达 式 II[abcd, k, s. 让 表示 如 下 的 计算 过 程 , 则 第 4 轮 的 16 
次 操作 可 以 表示 为 : 
a=b+((a+I(b,c,d)+X[k] + TLiD <<< 


II [ABCD, 0, 6, 49] II [DREC, 7, 10, 50] II [CIRB, 14, 15, 51] II [BOIA, 5, 21, 52] 

II [ABCD, 12, 6, 53] II [DREC, 3, 10, 54] II [CDRB, 10, 15, 55] II B, 1, 21, 56] 

II [ABCD, 8, 6, 57] II [DREC, 15, 10, 58] II [CDBB, 6, 15, 59] II [BCDA, 13, 21, 60] 

II [ABCD, 4, 6, 61] II [DREC, 11, 10, 62] II [CDIRB, 2, 15, 63] II [KTA, 9, 21, 64] 

在 上 面 式 子 中 ,XLA] 表 示 一 个 512bit 消息 块 中 的 第 & 个 32bit 的 子 分 组 。 即 一 个 
512bit 数据 块 由 16 个 32bit 的 子 分 组 构成 。 常 数 Ti 表示 4294967296Xabs(Csin(i)) 的 整 
数 部 分 。4294967296 是 2 的 32 次 方 ,abs(sin( 让 ) 是 对 i 的 正弦 取 绝 对 值 ,其 中 i 以 弧度 为 
单位 。 

如 下 式 所 示 , 在 4 轮 计算 结束 后 ,将 向 量 A、B、C、D 中 的 计算 结果 分 别 与 向 量 Ao Bon 
Co Do 相 加 ,最 后 将 结果 重新 赋 给 向 量 A、B、C、D。 

A=Ao+A B=B+B C=C,+C D-D,-D 

至 此 ,一 个 512bit 消息 块 的 运算 过 程 已 经 完成 。MD5 算法 将 通过 不 断 地 循环 ,计算 所 

有 的 消息 块 ,直到 处 理 完 最 后 一 块 消息 分 组 为 止 。 


3. 摘要 的 生成 


如 下 式 所 示 , 将 4 个 32bit Hi A,B,C,D 按照 从 低 字 节 到 高 字 节 的 顺序 拼接 成 一 个 
128bit 的 摘要 。 
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5.3 ”实例 编程 练习 


5.3.1 编程 练习 要 求 


本 章 要 求 读者 完成 以 下 训练 内 容 : 

(1) 要 求 在 Linux 平 台 上 编写 应 用 程序 ,正确 地 实现 MD5 算法 。 

(2) 要 求 程序 不 仅 能 够 为 任意 长 度 的 字符 串 生 成 MD5 摘要 ,而 且 可 以 为 任意 大 小 的 文 
件 生成 MD5 摘要 。 

(3) 程序 还 可 以 利用 MD5 摘要 验证 文件 的 完整 性 。 验 证 文件 的 完整 性 有 两 种 方式 : 
一 种 是 在 手动 输入 MD5 摘要 的 条 件 下 ,计算 出 当前 被 测 文件 的 MD5 摘要 ,再 将 两 者 进行 
比 对 ; 另 一 种 是 先 利 用 Linux 系统 工具 md5sum 为 被 测 文件 生成 一 个 后 级 为 . md5 的 同名 
文件 ,然后 让 程序 计算 出 被 测 文件 的 MD5 摘要 ,将 其 与 . md5 文件 中 的 MD5 摘要 进行 比 
较 , 最 后 得 出 检测 结果 。 

具体 要 求 有 以 下 几 点 : 


1. 程序 的 输入 格式 
程序 为 命令 行程 序 , 可 执行 文件 名 为 MD5. exe, 命 令 行 格式 如 下 : 
.AD5 [选项 ] [被 测 文件 路 径 ] [-ma5 文 件 路 径 ] 


其 中 [选项 ] 是 程序 为 用 户 提供 的 各 种 功能 。 在 本 程序 中 [选项 ] 包 括 (-h,-t,-c,-v,-f)5 
个 基本 功能 。[ 被 测 文件 路 径 ] 为 应 用 程序 指明 被 测 文件 所 在 文件 系统 中 的 路 径 。[. md5 
文件 路 径 ] 为 应 用 程序 指明 由 被 测 文件 生成 的 . md5 文件 所 在 文件 系统 中 的 路 径 。 其 中 第 
一 个 参数 为 必 选 项 ,后 两 个 参数 可 以 根据 功能 进行 选择 。 


2. 程序 的 执行 过 程 


(1) 打印 帮助 信息 
在 控制 台 命 令 行 中 输入 . /MD5 -h, 打 印 程序 的 帮助 信息 。 如 下 所 示 ,帮助 信息 详细 地 
说 明了 程序 的 选项 和 执行 参数 。 用 户 可 以 通过 查询 帮助 信息 充分 了 解 程序 的 功能 。 


[root®@ localhost MD5]# ./MD5 -h 
MD5: usage: [-h] -- help infomation 
[-t] --test MD5 application 
[c] [file path of the file omputed] 
— — aarpute MD5 of the given file 
[v] [file path of the file validated] 
— - validate the integrality of a given file by manual input MD5 value 
[-f] [file path of the file validated] [file path of the -md5 file] 
— — validate the integrality of a given file by read M5 value fram .md5 
= file 


(2) 打印 测试 信息 
在 控制 台 命令 行 中 输入 . /MD5 -t, 打 印 程序 的 测试 信息 。 如 下 所 示 ,测试 信息 是 指 本 
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程序 对 特定 字符 串 输入 所 生成 的 MD5 摘要 。 所 谓 特定 的 字符 串 是 指 在 MD5 算法 官方 文 
档 (CRFC1321) 中 给 出 的 字符 串 。 同 时 ,该 文档 也 给 出 了 这 些 特定 字符 串 的 MD5 摘要 。 因 
此 只 需要 将 本 程序 的 计算 结果 与 文档 中 的 正确 摘要 进行 比较 ,就 可 以 验证 程序 的 正确 性 。 


[root@ localhost MD5]# ./MD5 -t 
MD5 ("")= d41d8cd98f0Ob204eg800998ecf8427e 

MD5 ("a")= 0ocl175bgcOflb6a831c399e269772661 

MD5 ("abc") 9001509830d24fb0d6963F7d28e17F72 

MD5 ("message digest") f96b697d7db79383525a2f31aaf161d0 

MD5 ("abcdefohijklmcpqrstuvwzyz")= c3Fod3476192e40073fb496cca67e13b 

MD5 ("ABCTEFGHIJKIMYOPQRSTUWKY Zabodefighi jklmopqrstuvwxyz0123456789") 
=dl74ab98d2T1d9f5a5611c2c9f419d9f 

MD5 ("12345678901234567890123456789012345678901234567890123456789012345678901234567890") 
= 57edf4a27be3c955ac49da2e2107b67a 


(3) 为 指定 文件 生成 MD5 摘要 
在 控制 台 命令 行 中 输入 . /MD5 -c [被 测 文件 路 径 ], 计 算出 被 测 文件 的 MD5 摘要 并 打 
印 出 来 。 如 下 所 示 ,被 测 文件 nankai. txt 与 可 执行 文件 MD5 处 于 同一 个 目录 中 。 


[root8 localhost MD5]# ./MD5 - c nankai.txt 
The MD5 value of file("nankai.txt") is 
3cTT1aea5b'1e1914083b6850372edof0c 


(4) 验证 文件 完整 性 方法 1 

在 控制 台 命 令 行 中 输入 . /MD5 -c [被 测 文件 路 径 ] ,程序 会 先 让 用 户 输入 被 测 文件 的 
MD5 摘要 ,然后 再 重新 计算 被 测 文件 的 MD5 摘要 ,最 后 将 两 个 摘要 逐 位 比较 。 若 一 致 , 则 
说 明文 件 是 完整 的 ,否则 , 则 说 明文 件 遭 到 了 破坏 。 整 个 执行 过 程 如 下 所 示 。 


[root8 localhost MD5]# ./MD5 - v nankai.txt 

Please input the MD5 value of file("nankai.txt")... 
abodefohijklmcpcorstuvwxyz123456 

The old MD5 value of file("nankai.txt") you have input is 
&bodefghi jkInmoparstuvwxyz123456 

The new MD5 value of file("nankai.txt") that has computed is 
3cTI1aeaSb1e191408ab850372edofü0c 

Match Error!The file has been modi fied! 

[root8 localhost MD5]# ./MD5 - v nankai.txt 

Please input the MD5 value of file ("nankai txt")... 
3cTT1aeasb1e191408ab6850372edbfü0c 

The old M5 value of file("nankai.txt") you have input is 
3cTlaea*b7e1914083b8203 2edofü0c. 

The new MD5 value of file("nankai.txt") that has camputed is 
3cTTlaea*b1e1914083b8203 I2edofü0c- 

CK'The file is integrated 


(5) 验证 文件 完整 性 方法 2 
在 控制 台 命 令 行 输入 ./MD5 -f [被 测 文件 路 径 ] [. md5 文件 路 径 ] ,程序 会 自动 读 取 
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. md5 文件 中 的 摘要 ,然后 再 重新 计算 出 被 测 文件 的 MD5 摘要 ,最 后 将 两 者 逐 位 比较 。 若 
一 致 , 则 说 明文 件 是 完整 的 ,否则 , 则 说 明文 件 遭 到 了 破坏 。 整 个 执行 过 程 如 下 所 示 。 


[root localhost MD5]# ./ME5 — £ nankai .txt: nankai .md5 

"The old MD5 value of file("nankai.txt") in nankai .md5 is 

3cTIlaeetTe1914088b6b0372ecbof0c. 

"Ihe new MD5 value of £ile("nankai.txt") that has omputed is 

3c77laea5b1e191408ab6-0372ecbf0c 

GKIThe file is integrated 

总 之 ,本 章 编 程 训练 有 两 个 重点 : 一 是 掌握 MD5 算法 ,能够 正确 地 编程 实现 该 算法 ;二 
是 理解 在 Linux 平台 上 运用 MD5 算法 检测 文件 完整 性 的 过 程 , 能 够 编程 模拟 这 一 过 程 。 


5.3.2 编程 训练 设计 与 分 析 


程序 可 以 分 为 两 个 主要 部 分 : MD5 算法 实现 与 文件 完整 性 检验 。 其 中 前 者 为 程序 的 
核心 部 分 ,通过 MD5 类 来 实现 。MD5 类 可 以 为 任意 长 度 的 消息 生成 128bit 的 MD5 摘要 。 
文件 完整 性 检验 包括 读 取 被 测 文件 ,调用 MD5 类 运算 函数 生成 摘要 和 通过 比较 摘要 判断 
文件 完整 性 等 工作 。 


1. MD5 类 的 设计 与 实现 


作为 程序 的 核心 部 分 ,MD5 类 负责 摘要 计算 的 全 部 过 程 ,并 对 外 提供 各 种 接口 。 它 的 
定义 如 下 : 
class MD5 
t 
public: 
M50; 
MD5 (const string &str); 
MD5 (ifstream &in); 


// 对 给 定 长 度 的 输入 流 进行 D5 运算 
void Update (const void* input,size t length); 
// 对 给 定 长 度 的 字符 串 进行 D5 运算 
void Update (const string &str); 
void Update (i fstream &in) ; // 对 文件 中 的 内 容 进 行 D5 运算 
const. BYTE* GetDigest () ; // 将 Mn5 摘 要 以 字 节 流 的 形式 输出 
string Testring() ; // 将 Mn5 摘 要 以 字符 串 形式 输出 
void Reset (); // 重 置 初始 变量 

private: 
// 对 给 定 长 度 的 字 节 流 进行 Mp5 运算 
void Update (const BYTE input,size t length); 
void Stop(); // 用 于 终止 摘要 计算 过 程 ,输出 摘要 
void Transform(const BYTE block[64]) ; // 对 消息 分 组 进行 D5 运算 


// 将 双 字 流转 换 为 字 节 流 
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void Encode (const DWORD* input, BYIE* output, size t length); 
// 将 字 节 流转 换 为 双 字 流 

void Decode (const BYTE* input，DNORDx output, size t length); 
// 将 字 节 流 按照 十 六 进 制 字符 串 形式 输出 

string BytesTcHexString(const BYTE* input, size t length); 


private: 
IWCED state[4]; // 用 于 表示 4 个 初始 向 量 
IWCRD count [2]; // 用 于 计数 ,count[0] 表 示 低 位 ,count 中 表示 高 位 
BYTE buffer block[64]; // 用 于 保存 计算 过 程 中 按 块 划分 后 剩 下 的 bit W 
BYE digest[16]; // 用 于 保存 128 比特 长 度 的 摘要 
bool is finished; // 用 于 标志 摘要 计算 过 程 是 否 结束 
static const BYTE padding[64]; // 用 于 保存 消息 后 面 填充 的 数据 块 
static const char hex[16]; // 用 于 保存 十 六 进 制 的 字符 


J: 


数组 state 表示 4 个 初始 向 量 。 数 组 count 是 一 个 计数 器 ,记录 已 经 运算 的 bit 数 。 
buffer block 是 一 个 64 字 节 的 缓存 块 ,保存 消 息 被 划分 后 不 足 64 字 节 的 数据 。digest 用 于 
保存 生成 的 MD5 摘要 。is_finished 标志 MD5 运算 是 否 结束 。 

Update 函数 将 不 同类 型 的 输入 划分 为 若干 个 64 字 节 的 分 组 ,然后 调用 Transform FR 
数 进行 MD5 运算 。Transform PRO — 4 512bit 的 消息 分 组 进行 MD5 运算 。Encode PR 
数 和 Decode 函数 实现 消息 分 组 在 字 节 类 型 与 双 字 类 型 之 间 的 相互 转换 。Reset 函数 用 于 
重 置 初始 向 量 。 在 对 新 消息 进行 MD5 运算 之 前 ,需要 把 初始 向 量 设 为 默认 值 。GetDigest 
函数 用 于 获得 MD5 摘要 。BytesToHexString 函数 将 MD5 摘要 转换 为 十 六 进 制 字符 串 形 
式 。Tostring 函数 将 MD5 摘要 以 十 六 进 制 字符 串 的 形式 输出 。 其 中 Update 函数 和 
Transform 函数 是 MD5 类 的 核心 部 分 。 下 面 将 重点 介绍 这 两 个 函数 。 

(1) Update 函数 

MD5 类 中 有 4 个 Update ERAK Hh 3 个 公有 函数 是 对 外 接口 ,在 函数 体 中 都 调用 
了 私有 函数 Update 开启 MD5 摘要 的 计算 过 程 。 为 了 方便 使 用 ,3 个 Update 公有 函数 分 别 
为 字 节 流 、 字 符 串 以 及 文件 流 提供 了 输入 接口 。 虽 然 输入 参数 的 类 型 不 同 ,但 是 在 这 些 接口 
函数 中 都 会 先 将 输入 转化 为 标准 字 节 流 , 再 调用 私有 郴 数 Update。 

由 于 MD5 算法 是 以 64 字 节 ( 即 512bit) 为 单位 进行 计算 的 ,私有 函数 Update 首先 需要 
对 长 度 为 length 的 字 节 流 进行 预 处 理 , 然 后 再 调用 transform 函数 对 每 一 个 64 字 节 数据 块 
进行 计算 。 预 处 理 并 不 是 将 字 节 流 以 64 字 节 为 单位 简单 地 划分 成 若干 个 数据 块 ,而 是 需要 
考虑 前 一 次 运算 后 缓存 中 是 否 保存 着 未 被 计算 的 字 节 。 如 果 有 ,新 的 字 节 必须 接 在 这 些 字 
节 的 后 面 进 行 填充 ,直到 填 满 一 个 64 字 节 数据 块 后 才 可 以 按 上 述 方法 继续 划分 下 去 ;否则 ， 
直接 以 64 字 节 为 单位 进行 划分 。 当 划分 到 最 后 剩余 的 字 节 数 不 足 64 字 节 时 ,将 剩余 的 字 
节 保 存在 缓存 中 ,等待 下 一 个 字 节 流 将 数据 块 填 满 64 字 节 后 一 起 计算 。 私 有 函数 Update 
的 代码 如 下 。 


void MD5: :Update (const BYTE* input,size t length) 


第 5 章 基于 MD5 算 法 的 文件 完整 性 校 验 程序 


IWD i,index,partlen; 


// 设 置 停止 标识 

is finished- false; 

// 计 算 buffer 已 经 存放 的 字 节 数 
index- (DRORD) ( (count [0]>> 3) & 3f); 


// 更 新 计数 器 count, 将 新 数据 流 的 长 度 加 上 计数 器 原 有 的 值 

if((count[0] += ( (DWORD) length << 3))« ( (DWORD) length <<3)) // 判 断 是 否 进位 
count [1]++; 

count[1] += ( (DWORD) length>> 29) ; 


// 求 出 puffer 中 剩余 的 长 度 
partler= 64- index; 


/将 数据 块 逐 块 进行 D5 运算 

if length» - partLen) 

t 
memcpy (skuffer block[index], input, partlen); 
Transfom (puffer block); 


for (i- partlen; i+ 63< length; i +=64) 
Transform (&input [1]) ; 
index- 0; 
)else( 
i-0; 
H 
/将 不 足 多 字 节 的 数据 复制 到 buffer block rh 
memcpy(&buffer block[index], &input[i], length- i); 
) 
如 图 5-1 Br S. Update 函数 的 流程 可 以 分 为 下 面 5 个 步骤 。 
CD 将 标志 is finished 设 为 false, 表 示 MD5 运算 正在 进行 。 
© 将 计数 器 count 右 移 3 位 后 再 截取 后 6 位 ,获得 buffer 中 已 经 存放 的 字 节 数 。 
© 更 新 计数 器 count, 将 新 数据 流 的 长 度 加 入 计数 器 中 。 需 要 注意 的 是 计数 器 count 
中 保存 的 是 bit 数 (等 于 字 节 数 X8)。count[0] 保 存 的 是 数值 的 低 32 位 ,count[1] 保 存 的 是 
数值 的 高 32 位 。 
@ 求 出 buffer 中 的 剩余 字 节 数 partLen。 
© 判断 新 数据 流 的 长 度 length 是 否 大 于 partLen, 如 果 length 大 于 partLen, 将 parLen 
长 度 的 新 数据 拷贝 至 buffer 中 ,使 其 填 满 64 字 节 ,然后 调用 Transform 函数 对 buffer 中 的 
数据 块 进行 MD5 运算 。 接 着 利用 循环 将 新 数据 流 中 的 数据 以 64 字 节 为 单位 ,逐次 进行 
MD5 运算 ,直到 剩余 数据 不 足 64 字 节 为 止 ,最 后 将 新 数据 流 中 不 足 64 字 节 的 数据 拷贝 至 
buffer 中 。 如 果 length 不 大 于 partLen. 则 将 新 数据 流 的 全 部 数据 拷贝 至 buffer 中 即 可 。 
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设置 is_finished 标 志 为 false 
1 
获取 buffer 中 已 经 存放 的 字 节 数 index 


1 
将 新 数据 流 的 长 度 length 加 到 计数 器 count 中 


求 buffer 中 剩余 的 字 节 空间 partLen 


判断 新 数 
据 流 长 度 length 是 否 大 于 
partLen? 


调用 memepy 函数 将 partlen 长 度 的 新 数 
据 拷贝 至 buffer 中 ， 使 其 装 满 64 字 节 


i 
调用 Transform 函数 ， 对 buffer 中 的 
数据 进行 MD5 运 算 ! 
将 新 数据 流 的 全 部 数 
据 拷贝 至 buffer 中 


利用 循环 语句 ， 将 新 数据 流 中 的 数据 以 
64 字 节 为 单位 ， 逐 次 进行 MD5 运 算 ， 
直到 剩 下 的 数据 不 足 64 字 节 为 止 


i 


将 新 数据 流 中 剩余 的 不 足 64 字 节 的 
数据 拷贝 至 buffer 中 


图 5-1 Update 函数 流程 图 


(2) Transform PĀ% 

在 MD5 类 中 , Transform 函数 负责 对 64 字 节 数据 块 进行 MD5 运算 。 在 声明 
Transform 函数 之 前 ,需要 定义 一 些 基本 操作 和 基本 运算 。 下 面 给 出 这 些 基 本 操作 和 运算 
的 定义 。 

首先 定义 在 MD5 4 HARHA h ai ABCD 循环 左 移 的 位 数 。 例 如 ,# define S11 
7 表示 第 1 轮 计算 中 式 子 [LABCD, 0. 7, 1] 中 循环 左 移 的 位 数 。 如 果 需 要 查阅 所 有 公式 关 
于 循环 左 移 位 数 的 定义 ,请 参考 mds. cpp 文件 中 的 代码 。 

其 次 定义 MD5 算法 的 4 个 基本 函数 ,代码 如 下 : 


t define F(x, y, z) (69 & Y) | (63) & (2))) //F 88k 
# define Gi, y, z) (6) & (2)) | (y) & (~2))) //G 函 数 
# define H(x, y, z) (69 ^ (y) ^ (2) /人 函数 
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f define I(x, y, z) (Y) ^ (69 | (2) //5 8C 


然后 定义 32 位 双 字 的 循环 左 移 操作 。 如 下 所 示 , 其 中 xz 表示 一 个 32 位 双 字 ,n 表示 循 
环 左 移 的 位 数 。 


# define OME IEFT(x, n) (((x) << (n)) | (>> (2- (n)))) 


最 后 定义 4 轮 计算 中 的 FF.GG、HH\II 函数。 如 下 所 示 EP abed 表示 计算 向 量 ， 
工 表示 一 个 32 位 的 子 块 ,s 表示 循环 左 移 的 位 数 ,ac 表示 弧度 。 


fdefine FF(a, b, c, d, x, s, ac) { 
(9) *-F (6), (9, (d)* (9*ac; 
(8)- FOTATE IEFT ((8), (5); 
(a) += b); 
) 
# define G3(a, b, c, d, x, s, ac) { 
(a) +=G (6), (c), (Q)* G)* ac; 
(8)- ROTATE IEFT ((a), (3); 
(a) += b); 
k 
# define Hi(a, b, c, d, x, s, ac) { 
(a) +=H ((b), (c), (d))+ G)* ac; 
(a)=FOTATE IEFT ((a), (s)); 
(a) += b); 
i 
# define TI (a, b, c, d, x, s, ac) ( 
(a) +=I (0), (c), (d))+ @)+ ac; 
(a)=FOTATE IEFT ((a), (s)); 
(a) += b); 
} 
根据 上 面 定义 的 操作 ,Transform 函数 实现 了 MD5 摘要 的 计算 过 程 。Transform ñ 8⁄4 
的 定义 如 下 所 示 。 它 的 执行 流程 分 为 以 下 4 个 步骤 : 
CD 首先 将 初始 向 量 state 的 数值 赋 给 变量 abcd. 
© 调用 Decode 函数 ,将 64 字 节 的 数据 块 划分 为 16 个 32bit 大 小 的 子 分 组 。 因 为 每 一 
轮 计算 都 是 对 32bit 子 分 组 进行 操作 ,所 以 重新 划分 后 可 以 方便 后 面 的 计算 过 程 。 
© 依次 调用 函数 FF.GG、HH、II 展开 4 轮 计算 ,其 中 每 一 轮 计算 包含 16 小 步 ,每 一 步 
对 一 个 32bit 子 分 组 进行 运算 。 函 数 FF .GG HH II 的 前 4 个 参数 是 变量 a.b、c.d 的 不 同 
排列 ,参数 X[k] 表 示 对 第 个子 分 组 进行 计算 ,5; 表 示 第 i 轮 第 j 步 计算 循环 左 移 的 位 数 ， 
最 后 一 个 常数 T[ 门 表示 4294967296 X absCsin D ) 的 整数 部 分 。 
@ 最 后 将 变量 a.b、c、d 中 的 运算 结果 加 到 初始 向 量 state 中 。 
Transform 函数 的 实现 代码 如 下 。 
void M5: Transform (const BYTE block[64]) 


t 
DWORD a= state[0], b= state[1], c- state[2], d- state[3], x[16]; 


E 
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Decode (block, x, 64); 


/第 1 轮 

FF (a, b, c, d, x[ 0], SLL, Oxd7622478) ; /A 
EF (d, a, b, c, x[ 1], S12, Qxe8c75756) ; 112 
// 第 256 

Gs (a, b, c, d, x[ 1], S21, Oxf6le25€2); WA 
GS (d, a, b, c, x[ 6], S22, Oxc040b340); //18 
/ff 35€ 

HH (a, b, c, d, x[ 5], S31, Qxfffa3942) ; //33 
H (d, a, b, c, x[ 8], S32, 0x8771£681) ; //34 
V ELA 

II (a, b, c, d, x[ 0], S41, 0xf4290244) 7 //49 
II (d, a, b, c, x[ 7], S42, Ox432aff97) ; //50 
state[0] +=a; 

state[1] *-b; 

state[2] *-c; 

state[3] *-d; 


} 


2. 文件 完整 性 检验 的 设计 与 实现 


文件 完整 性 检验 在 main 函数 中 实现 。 应 用 程序 为 用 户 提供 了 多 个 选项 ,不 但 可 以 在 命 
令 行 下 计算 文件 的 MD5 摘要 ,验证 文件 的 完整 性 ,还 可 以 显示 程序 的 帮助 信息 和 MD5 算 
法 的 测试 信息 。 

在 main 函数 中 ,程序 通过 区 分 参数 argv[1] 的 不 同 值 来 启动 不 同 的 工作 流程 。 如 果 
argv[ 1] 等 于 “-h”, 表 示 显 示 帮 助 信息 ;如 果 argv[1] 等 于 “-t”, 表 示 显 示 测 试 信息 ;如 果 argv 
[1 等 于 “-c”, 表 示 计 算 被 测 文件 的 MD5 摘要 ;如 果 argv[1] 等 于 “-v”, 表 示 根 据 手 工 输入 的 
MD5 摘要 验证 文件 的 完整 性 ;如 果 argv[1] 等 于 “-h”, 表 示 根 据 . md5 文件 中 的 摘要 验证 文 
件 的 完整 性 。 

帮助 信息 可 以 协助 用 户 快速 地 了 解 命令 行 输入 格式 。 测 试 信息 可 以 让 用 户 验 证 MD5 
算法 的 正确 性 。 用 于 测试 的 消息 字符 串 都 是 MD5 算法 官方 文档 (RFC1321) 中 给 出 的 例 
子 , 如 果 计 算 的 结果 相同 , 则 说 明 程序 的 MD5 运算 过 程 正 确 无 误 。 

程序 提供 了 两 种 验证 文件 完整 性 的 方式 : 一 种 是 让 用 户 手工 输入 被 测 文件 的 MD5 fii 
要 ,然后 调用 MD5 类 的 运算 函数 重新 计算 被 测 文件 的 MD5 摘要 ,最 后 将 两 个 摘要 逐 位 进 
行 比较 ,进而 验证 文件 的 完整 性 ; 另 一 种 是 从 与 被 测 文件 对 应 的 . md5 文件 中 读 取 MD5 摘 
要 ,然后 调用 MD5 类 的 运算 函数 重新 计算 被 测 文件 的 MD5 摘要 ,最 后 将 两 个 摘要 逐 位 进 
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行 比较 ,进而 验证 文件 的 完整 性 。 

手工 输入 验证 的 代码 如 下 。 它 分 为 以 下 6 TR. 

CD. 首先 比较 参数 argv[L1] ,判断 是 否 通过 手工 输入 进行 验证 。 若 是 , 则 继续 下 面 的 步 
又 ;否则 ,退出 。 

(2) 检测 被 测 文件 的 路 径 是 否 存在 , 若 存在 , 则 继续 下 面 的 步骤 ;否则 ,退出 。 

(3) 输入 被 测 文件 的 MD5 摘要 并 保存 在 数组 InputMD5 中 。 

(4) 打开 被 测 文件 , 读 取 被 测 文件 的 内 容 , 并 调用 Update 函数 重新 计算 被 测 文件 的 
MD5 摘要 。 

(5) 调用 Tostring 函数 将 MD5 摘要 表示 成 十 六 进 制 字符 串 的 形式 。 

(6) 最 后 调用 stremp 函数 判断 两 个 摘要 是 否 相同 , 若 相 同 , 则 说 明 被 测 文件 是 完整 的 ; 
否则 ,说 明文 件 受到 了 破坏 。 

if (!stramp (pValidate,argv[1])) /判断 是 否 通 过 手工 输入 进行 验证 


£ < 
if (argv[2]- - NULL) DI MNEiba 


// 手 动 输入 了 被 测 文件 的 woo 18 E 

cout«« "Please input the M5 value of file (N""<< argv [2]<< "\") ..."<< endl; 
cin»» InputMD5; 

InputMb5[32]- 'N0'; 


// 打 开 被 测 文件 
pFilePath- argv[2]; 
ifstream File 2(pFilePath); 


// 读 取 文件 内 容 并 计算 M05 摘要 
MD5 md5 cbj3; 

md5_ cbj3.Reset (); 

md5 cbj3.Update(File 2); 


// 比 较 摘要 ,进行 验证 

str-md5 dbj3.Tostring(); 

const char* pResult-str.c str(); 
if (stram (pResult, InputMD5) ) 


else 


) 

通过 . md5 文件 进行 验证 的 代码 如 下 。 它 与 手工 输入 验证 类 似 , 也 可 分 为 以 下 6 个 
步骤， 

(1) 首先 比较 参数 argv[ 1] ,判断 是 否 通过 . md5 文件 进行 验证 。 若 是 , 则 继续 下 面 的 步 


又 ;否则 ,退出 。 
(2) 检测 被 测 文件 的 路 径 和 . md5 文件 的 路 径 是 否 存在 , 若 存在 , 则 继续 下 面 的 步骤 ;和 否 
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则 ,退出 。 

(3) 打开 . md5 文件 , 读 取 文 件 中 的 记录 ,调用 strtok 函数 获得 被 测 文件 的 MD5 摘要 。 

(4) 打开 被 测 文件 , 读 取 被 测 文件 内 容 , 并 调用 Update 函数 重新 计算 被 测 文件 的 MD5 
摘要 。 

(5) 调用 Tostring 函数 将 MD5 摘要 表示 成 十 六 进 制 字符 串 的 形式 。 

(6) 最 后 调用 stremp 函数 判断 两 个 摘要 是 否 相 同 , 若 相同 , 则 说 明 被 测 文件 是 完整 的 ; 
否则 ,说 明文 件 受到 了 破坏 。 

if (Istram(File,argv[1])) // 和 判断 是 否 通过 .ma5 文 件 进行 验证 

{ 


// 剧 断 是 否 输入 了 被 测 文件 和 .m5 文件 路 径 
if (argv[2]- - NULL | | argv[3]- - NULL) 


/AT3F .MD5 文 件 
pFilePath- argv[3] ; 
ifstream File 3(pFilePath); 


// 读 取 .MD5 文 件 中 的 一 行 记录 
File 3.getline (Fecord, 50) ; 


// 以 空格 为 标记 ,获得 .MD5 文 件 中 的 MD5 值 与 对 应 文件 名 
DS strtok (Record, pS); 
FEileName= strtok (NULL, pS) ; 


// 打 开 被 测 文件 

pEilePath- argv[2]; 

ifstream File 4(pFilePath); 
// 读 取 文件 内 容 并 计算 Mp5 摘要 

MD5 md5 cbj4; 

md5 cbj4.Reset (); 

md5 cbj4.Update(File 4); 

str-mi5 cbj4.Tostring(); 

const char* pResult2- str.c str(); 
/比较 摘要 ,进行 验证 

if (stramp Result2,EMD5)) 


else 


5.4 扩展 与 提高 


5.4.1 MD5 算法 与 Linux 口令 保护 
除了 验证 文件 完整 性 以 外 ,MD5 算法 在 其 他 方面 也 有 着 广泛 的 应 用 。Linux 系统 的 用 
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户口 令 需 要 经 过 加 密 才能 保存 在 配置 文件 中 ,而 MD5 算法 则 是 加 密 用 户口 令 的 最 常用 

最 早 ,Linux 用 户口 令 加 密 后 保存 在 用 户 配 置 文件 /etc/passwd 中 。 文 件 中 的 每 一 行 对 
应 一 个 用 户 , 并 用 冒号 (:) 划 分 为 7 个 字段 。 用 户口 令 加 密 后 就 放 在 每 一 行 的 第 2 个 字段 
里 。 一 般 情况 下 ,/etc/passwd 文件 允许 所 有 用 户 读 取 , 但 只 允许 root 用 户 写 入 。 因 此 , 恶 
意 用 户 可 以 轻松 地 读 取 加 密 后 的 口令 字符 串 , 然 后 使 用 字典 攻击 等 手段 获得 其 他 用 户 的 口 
令 。 鉴 于 上 述 原因 ,后 期 的 Linux 版 本 专门 设置 一 个 用 户 影子 口令 文件 /etc/shadow 用 于 
保存 用 户口 令 , 并 且 只 允许 root 用 户 读 取 该 文件 。 这 样 普通 用 户 就 无 法 读 取 加 密 后 的 口令 
文件 ,从 而 进一步 提高 了 口令 的 安全 性 。 

在 /etc/passwd 文件 中 ,每 一 行 的 第 2 个 字段 表示 是 否 有 加 密 口 令 。 若 为 x, 则 表示 该 
账户 设置 了 口令 ;和 否则 ,表示 没有 设置 口令 。 以 下 面 的 /etc/passwd 文件 为 例 , 第 1 行 记录 
表明 root 用 户 设置 了 口令 。 而 真正 的 口令 加 密 字符 串 则 保存 在 /etc/shadow 文件 中 。 


1 root:x:0:0:root:/root:/bin/bash 
2 bin:x:1:1:bin:/bin:/sbin/nologin 


5 /etc/ passwd 文件 类 似 ,/etc/shadow 文件 的 每 一 行 对 应 一 个 用 户 , 用 冒号 (:) 划 分 了 
9 个 字段 。 用 户 加 密 后 的 口令 就 保存 在 第 2 个 字段 中 。 如 下 所 示 ,root 用 户 的 口令 加 密 字 
符 串 是 “$1$ Q. DJ5Zss $ P. WvrDK/ogM9w/KNIrEAR0”。 该 字符 串 是 利用 MD5 算法 生 
成 的 128 位 摘要 。 因 为 只 有 root 用 户 才 有 权 查 看 ,所 以 有 力 地 保障 了 Linux 口令 的 安 
全 性 。 


1 root:$ 1$ Q.DJ5Zss$ P.WvrDK/ogM9w/KNLrEARO:13997:0:99999:7::: 
2 bin: * :13948:0:99999:7::: 


5.4.2 Linux 系统 GRUB 的 MD5 加 密 方法 


1. GRUB 口令 恢复 的 安全 问题 


在 使 用 Linux 过 程 中 ,用 户 经 常会 忘记 自己 之 前 设 定 的 口令 。 鉴 于 这 种 情况 ,GRUB 
为 用 户 提供 了 一 条 恢复 口令 的 捷径 。GRUB 是 一 个 引导 装 和 人 器 ,负责 装 人 内 核 并 引导 
Linux 系统 。 类 似 于 在 计算 机 上 安装 两 个 windows 时 出 现 的 选单 管理 器 OS Loader， 
GRUB 可 以 让 用 户 选 择 使 用 哪 一 个 操作 系统 。 与 Linux 之 前 的 引导 装 和 器 LILO 相 比 ， 
GRUB 具有 功能 强大 ,引导 过 程 灵活 ,安全 性 高 等 优点 。 

引导 工具 GRUB 恢复 口令 的 使 用 方法 如 下 : 

CD 首先 启动 计算 机 ,在 GRUB 界面 时 ,选择 需要 进入 的 Linux 系统 ,然后 按 e 键 。 

(2) 选择 以 kernel 开头 的 一 行 , 按 e 键 进入 编辑 模式 。 在 此 行 的 末尾 按 空格 键 后 输入 
single, 代 码 如 下 所 示 。 最 后 按 回 车 键 退出 编辑 。 


kernel /boot/vmlinuz— 2.4.18- 14 single ro root- IAEEI= /single 
G) 回 到 GRUB 界面 后 , 按 b 键 来 引导 进入 单 用 户 模 式 。 
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(4) 进入 单 用 户 模式 后 ,利用 password 命令 设置 新 密码 。 

GRUB 虽然 提供 了 一 种 恢复 口令 的 方法 ,但 是 同时 也 带 来 了 一 个 破解 口令 的 漏洞 。 亚 
意 用 户 完全 可 以 利用 上 述 方法 获得 Linux 系统 的 用 户口 令 。 为 了 阻止 未 授权 的 用 户 登 录 启 
动 引导 程序 ,需要 对 GRUB 设置 密码 。 给 GRUB 设置 密码 一 般 有 两 种 方式 ,一 种 是 设置 明 
文 密码 ; 另 一 种 是 利用 MD5 算法 设置 加 密 密 码 。 


2. GRUB 设置 明文 密码 

设置 明文 密码 过 程 如 下 : 在 /etc 目录 下 打开 配置 文件 grub. conf. “timeout =...”— 
行 下 面 插 入 语句 “password 二 ****x”。 其 中 * 代表 明文 密码 。 然 后 在 “title.…" 一 行 下 面 插入 
语句 “lock”。 保 存 退出 之 后 重启 计算 机 。 再 次 进入 GRUB 界面 时 ,系统 将 提示 需要 按 “p” 
HEA GRUB 密码 。 

3. GRUB 设置 MD5 加 密 密 码 

将 密码 以 明文 形式 保存 在 配置 文件 中 是 一 种 不 安全 的 加 密 方法 。 如 果 利 用 MD5 算法 
对 GRUB 密码 进行 加 密 , 然 后 再 将 加 密 字符 串 保存 在 配置 文件 中 ,就 可 以 进一步 提高 密码 
的 安全 性 。MD5 加 密 密 码 的 设置 过 程 如 图 5-2 所 示 。 


r 7/ 522176K upper memory 


fedora. 


图 5-2 GRUB 密码 保护 


CD 首先 生成 GRUB 的 加 密 密 码 。 在 命令 行 输入 grub, 进 入 GRUB 界面 。 然 后 输入 
md5crypt( 或 password 一 md5) ,再 输入 密码 ,就 会 生成 一 个 md5 加 密 字 符 串 ,代码 如 下 所 
示 。 复 制 下 该 字符 后 ,输入 “quit” 退 出 。 

grb> mscrypt 

Password:*** x% 

Encrypted: $1$ mIpvT$ y8iEtGvO7/IBRJdJhiDe3l 

gnib» quit 

(2) 如 下 所 示 , 在 /etc 目录 下 打开 配置 文件 grub. conf. fE“timeout =...”—4r F Wifi A. 
语句 “password 一 md5 加 密 字符 串 ”。 然 后 在 语句 “title... ”语句 之 后 插入 语句 “lock”。 保 
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存 退 出 之 后 重启 计算 机 。 


[root& localhost ~ ]# od /etc 
[root& localhost etc]# vim grub.conf 


10 default- 0 

11 timeout- 10 

12 password — — md5$1$ mLEvTS y8iEtGvO7/IERJAJhiD831 

13 splashimage= (hd0,0) /grub/splash.xpm.gz 

14 hiddermenu 

15 title Fedora (2.6.23.1- 42.fc8) 

16 lock 

Ti root (hd0,0) 

18 kernel /wlinuz- 2.6.23.1- 42.fc8 ro root= /dev/VolGroup00/LogVol00 rhgo quiet 

19 initrd /initrd- 2.6.23.1- 42.fc8.img 

(3) 如 图 5-2 Bros ,再 次 进入 GRUB 界面 后 ,系统 提示 需要 按 “p” 键 输入 GRUB 密码 才 
能 引导 启动 。 

经 过 上 面 的 设置 ,未 授权 用 户 就 不 能 轻易 地 引导 系统 ,获得 用 户口 令 了 。 由 此 可 见 ， 
MD5 算法 在 保护 用 户口 令 ,维护 Linux 系统 安全 中 扮演 着 重要 的 角色 。 


5.4.3 字典 攻击 与 MD5 变换 算法 


因为 MD5 算法 的 运算 过 程 不 可 道 ,所 以 不 存在 对 任意 一 个 MD5 散 列 逆向 计算 出 明文 
的 破解 机 。 目 前 ,破解 MD5 的 最 有 效 方法 之 一 就 是 字典 攻击 。 所 谓 字 典 攻击 ,是 指 事先 收 
集 大 量 明文 和 对 应 的 MD5 散 列 ,并 把 它们 成 对 地 保存 在 数据 库 中 ,然后 在 数据 库 中 寻找 与 
当前 MD5 散 列 对 应 的 明文 进行 破解 。 当 然 如 果 数 据 库 中 没有 相应 的 记录 ,破解 工作 就 无 
法 进行 。 

目前 收集 MD5 字典 的 网 站 有 很 多 ,以 下 列 出 了 3 个 有 代表 性 的 网 站 : 

(1) http://md5. rednoize. com 网 站 采用 搜索 引擎 的 形式 ,支持 明文 字符 串 与 MD5 fik 
列 间 的 双向 转换 。 目 前 拥有 1 963 442 条 记录 。 

(2) http://www. neeao. com/md5/ 是 一 个 中 文 网 站 ,目前 拥有 近 17 亿 条 记录 。 

(3) http://www. xmd5. org/index cn. htm 是 一 个 多 语言 网 站 ,目前 拥有 2000 万 条 
记录 。 

如 果 攻 击 者 拥有 数据 量 巨大 的 密码 字典 ,并 且 建 立 了 许多 MD5 原文 / 散 列 对 照 数 据 
库 , 则 能 快速 地 找到 常用 明文 字符 串 的 MD5 散 列 。 因 此 字典 攻击 已 经 成 为 一 种 破解 MD5 
散 列 的 高 效 途径 。 然 而 ,上 述 字 典 所 使 用 的 都 是 常规 的 MD5 算法 , 即 原文 MD5 一 密 文 。 
如 果 对 MD5 算法 进行 变换 ,就 可 以 使 这 些 MD5 字典 无 所 作为 。 

对 MD5 进行 变换 的 方法 有 很 多 ,最 容易 理解 的 就 是 对 同一 原文 进行 多 次 MD5 运算 。 
在 下 面 给 出 的 代码 中 , 自 定义 了 一 个 函数 md5_more, 它 有 两 个 参数 data 和 times, 前 者 表示 
需要 加 密 的 明文 ,后 者 表示 重复 加 密 的 次 数 。 由 代码 可 见 ,在 函数 体 中 ,调用 了 times 次 
md5 函数 ,因此 将 明文 加 密 了 times 遍 。 这 种 变换 也 可 以 用 递归 的 方法 来 实现 。 


function md5 more (data, times) 
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{ /循环 使 用 MD5 
for (i-0; ictimes; i++) ( 
data- m5 (data) ; 
} 
retum data; 
} 


另 一 种 变换 的 主要 思想 是 : 首先 经 过 一 次 MD5 运算 ,得 到 一 个 由 32 个 字符 (用 十 六 进 
制 表示 ) 组 成 的 散 列 字符 串 ,然后 将 该 字符 串 分 割 为 若干 子 串 , 再 对 每 个 子 串 进行 MDS ië 
算 , 最 后 将 每 个 子 串 的 MD5 散 列 合并 成 一 个 字符 串 作 为 MD5 算法 的 输入 并 计算 出 一 个 最 
终 的 散 列 。 

在 下 面 给 出 的 代码 中 ,函数 divide 首先 对 明文 进行 一 次 MD5 运算 ,然后 将 得 到 的 散 列 
分 为 左 , 右 两 个 字符 串 , 各 包含 16 个 字符 。 分 别 对 两 个 子 串 进行 MD5 运算 后 ,再 将 计算 结 
果 合 成 一 个 64 字 节 的 字符 串 。 最 后 用 MD5 算法 将 该 字符 串 再 计算 一 次 ,得 到 最 终 的 结果 。 


// 把 密 文 分 割 成 两 段 ,每 段 16 个 字符 
function md5 divide (data) 
t 
// 先 把 明文 加 密 成 长 度 为 32 字符 的 密 文 
data- má5 (data) ; 
// 把 密码 分 割 成 两 段 
left- substr (data, 0, 16); 
right- substr (data, 16, 16); 
// 分 别 加 密 后 再 合并 
data- má5 (left) .md5 (right); 
// 最 后 把 长 字符 串 再 加 密 一 次 ,成 为 32 字 符 散 列 
retum md5($ data); 
} 


除了 上 述 两 种 变换 方法 之 外 ,还 有 附加 字符 串 干 涉 ,字符 串 次 序 干 涉 以 及 大 小 写 变换 干 
涉 等 多 种 方法 。 可 以 说 ,MD5 变换 算法 以 增加 计算 开销 为 代价 ,有 效 地 抑制 了 字典 攻击 , 提 
高 了 算法 的 安全 性 。 但 是 ,一 旦 攻击 者 获得 了 某 个 应 用 程序 指定 的 MD5 变换 算法 , 则 该 变 
换算 法 就 再 也 没有 任何 秘密 可 言 。 在 这 种 情况 下 ,变换 后 的 算法 只 是 比 原 算法 消耗 攻击 者 
更 多 的 计算 资源 。 


第 6x 
基于 Raw Socket 的 网 络 嗅 探 器 程序 


6.1 本 章 训练 目的 与 要 求 


网 络 监控 软件 能 够 监测 网 络 流量 ,发 现 网 络 中 异常 的 数据 流 , 有 效 地 发 现 和 防御 网 
络 攻击 ,是 保证 网 络 安全 的 重要 工具 和 手段 之 一 ,也 是 网 络 安全 技术 人 员 必 须 掌 握 的 
重要 技能 之 一 。 本 章 研 究 基于 Raw Socket 的 网 络 嗅 探 器 (Sniffer) 系 统 设 计 与 软件 编程 
方法 。 

本 章 训 练 的 主要 目的 是 : 

(1) 理解 Sniffer 的 基本 工作 原理 与 实现 方法 。 

(2) 掌握 Raw Socket 的 基本 工作 原理 。 

(3) 掌握 TCP/IP,ICMP 等 协议 及 socket 编程 方法 。 

本 章 训练 要 求 如 下 : 

CD 利用 原始 套 接 字 编 写 一 个 网 络 嗅 探 器 捕获 网 络 数据 报 。 

(2) 分 析 基 本 的 数据 报信 息 。 

(3) 实现 简单 的 过 滤器 功能 。 


6.2 相关 背景 知识 


6.2.1 原始 套 接 字 


Linux 系统 套 接 字 主要 分 为 3 类 : TCP ERF UDP 套 接 字 和 原始 套 接 字 。TCP 套 接 
字 又 称 流 式 套 接 字 ,是 建立 在 传输 层 TCP 协议 上 的 套 接 字 ;UDP 套 接 字 又 称 数据 报 套 接 
字 , 是 建立 在 传输 层 UDP 协议 上 的 套 接 字 ;原始 套 接 字 是 一 种 比较 特殊 的 套 接 字 ,虽然 创 
建 原始 套 接 字 的 方法 和 创建 TCP、UDP 套 接 字 的 方法 基本 相同 ,但 是 其 功能 和 TCP, UDP 
套 接 字 相 比 却 存在 很 大 的 差异 。 

TCP/UDP 套 接 字 只 能 接收 和 操作 传输 层 或 者 传输 层 之 上 的 数据 报 , 因 为 当 IP 层 把 数 
据 报 往 上 传 给 传输 层 的 时 候 ,下 层 的 数据 报头 部 信息 (如 IP 数据 报头 部 和 Ethernet 帧 头 
部 ) 都 已 经 去 除了 。 而 原始 套 接 字 可 以 直接 对 数据 链 路 层 的 数据 报 进行 操作 。 


1. 原始 套 接 字 特 点 
原始 套 接 字 有 以 下 5 个 主要 特点 : 
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CD 原始 套 接 字 可 以 读 写 ICMP IGMP 数据 报 。 

对 于 ICMP 和 IGMP 等 封装 在 IP 数据 报 中 但 是 又 在 传输 层 之 下 的 数据 报 , 系 统 内 核 不 
管 是 否 已 经 有 注册 的 句柄 来 处 理 这 些 数据 报 , 都 会 将 这 些 数 据 报复 制 一 份 传递 给 协议 类 型 
匹配 的 原始 套 接 字 。 通 过 这 种 方式 ,系统 可 以 在 用 户 空间 中 处 理 这 些 数据 报 , 而 不 用 内 核 来 
处 理 , 从 而 可 以 减轻 内 核 负 担 。 

(2) 原始 套 接 字 可 以 读 写 部 分 的 IP 数据 报 。 

通常 这 些 数据 报 的 协议 域 系 统 内核 不 能 识别 或 者 系统 内 核 没 有 处 理 。 对 于 内 核 不 能 识 
别 其 协议 类 型 的 数据 报 ,内核 首先 会 对 其 进行 必要 的 校 验 , 然 后 查看 是 否 有 匹配 的 原始 套 接 
字 来 处 理 , 如 果 有 匹配 的 原始 套 接 字 , 内 核 会 复制 一 份 该 数据 报 给 匹配 的 原始 套 接 字 ,和 否则， 
直接 丢弃 该 IP 数据 报 。 

(3) 对 于 TCP 包 和 UDP 包 , 因 为 内 核 有 相应 的 句柄 对 这 些 包 进行 处 理 , 所 以 内 核 并 不 
会 将 其 传递 给 任何 原始 套 接 字 。 

如 果 想 要 通过 原始 套 接 字 来 捕获 TCP 和 UDP 包 , 在 创建 原始 套 接 字 的 时 候 ,必须 将 第 
1 个 参数 设置 为 PF_PACKET, 第 3 个 参数 指定 为 htons(ETH_P_IP) 或 者 htons(ETH_P_ 
ALL) ,这 样 原始 套 接 字 将 直接 通过 数据 链 路 层 捕获 数据 报 。 本 章 实现 的 Sniffer 程序 就 需 
要 用 这 样 的 方式 从 链 路 层 捕获 所 有 流 经 本 机 网 卡 的 数据 报 。 

CD 原始 套 接 字 可 以 构造 自己 的 IP 报头 。 

原始 套 接 字 可 以 构造 自己 的 IP 报头 ,这 样 就 可 以 构造 和 发 送 特定 的 IP 数据 报 。 但 是 
必须 先 通过 setsockopt O 函数 设 置 套 接 字 IP_HDRINCL 选项 , 即 设置 让 程序 自己 填充 IP 
报头 ,而 不 是 由 内 核 自 动 填充 。 

(5) 原始 套 接 字 需要 超级 用 户 权限 才 能 创建 。 


2. 原始 套 接 字 的 相关 操作 

(1) 创建 原始 套 接 字 ( 代 码 如 下 ) 

int rawsock; 

rawsock- socket (domain, SOCK RAW, protocol); 

(D 第 1 个 参数 domain 表示 地 址 族 或 者 协议 族 ,一 般 来 说 地 址 族 用 AF_INET, 协 议 族 
用 PF_INET。 在 功能 上 ,PF_INET 和 AF_INET 是 没有 区 别 的 。PF_INET 中 的 PF_ 代 表 
protocol family ,而 AF_ 代 表 address family ,在 最 初 设计 的 时 候 是 计划 让 一 个 protocol 
family 包含 多 个 address family, 但 是 这 个 计划 并 没有 实现 。 在 套 接 字 的 头 文件 中 有 
# define PF INET AF_INET 这 样 一 个 宏 定义 ,因此 这 两 个 宏 在 数值 上 相等 ,在 功能 上 也 没有 
区 别 。 如 果 需 要 原始 套 接 字 在 链 路 层 上 捕获 数据 报 , 需 要 将 该 参数 设置 为 PF_PACKET。 

O 第 2 个 参数 为 套 接 字 类 型 ,原始 套 接 字 对 应 的 类 型 为 SOCK_RAW。 

© 第 3 个 参数 protocol 是 一 个 常量 定义 ,可 以 根据 程序 的 需求 选择 相应 的 protocol, JÉ 
式 如 IPPROTO_XXX。 这 些 宏 在 头 文件 二 netinet/in. h 盖 中 都 有 相应 的 定义 。 如 果 想 要 通 
过 原始 套 接 字 来 捕获 TCP 和 UDP 包 , 创 建 原始 套 接 字 的 时 候 , 要 将 该 参数 指定 为 htons 
(ETH_P_IP) 或 者 htons(ETH_P_ALL)。 

创建 原始 套 接 字 需 要 超级 用 户 权 限 , 否 则 socket 函数 将 不 能 成 功 创建 原始 套 接 字 , 返 
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回 一 1 值 ,同时 会 将 errno 置 为 EACCES。 

(2) 绑 定 和 连接 操作 

通常 情况 下 ,原始 套 接 字 是 不 需要 绑 定 操作 的 ,但 是 也 可 以 将 原始 套 接 字 绑 定 在 一 个 本 
地 的 地 址 上 。 原 始 套 接 字 的 绑 定 操作 只 是 针对 IP 地 址 ,而 不 会 涉及 端口 。 即 原始 套 接 字 不 
会 绑 定 在 一 个 固定 的 端口 上 。 调 用 bind() 函数 之 后 .在 接收 数据 报时 ,内 核 只 会 将 目的 IP 
地 址 为 本 机 TP 地 址 的 数据 报 传递 给 该 原始 套 接 字 。 在 原始 套 接 字 发 送 数据 报时 ,数据 报 的 
源 IP 地 址 会 自动 设置 为 绑 定 的 IP 地 址 。 如 果 没 有 调用 bindO 8 38k ,在 接收 数据 报时 ,内 核 
会 把 所 有 的 数据 报 传递 给 该 原始 套 接 字 ,原始 套 接 字 发 送 数据 报时 ,数据 报 的 源 IP 地 址 会 
自动 设置 为 发 送 接口 的 主 TP 地 址 。 

原始 套 接 字 可 以 通过 调用 connect O 函数 连接 套 接 字 。 同 样 connect() 函 数 也 只 涉及 
IP 地 址 ,而 不 涉及 端口 号 。 调 用 connect() 函 数 ,连接 成 功 后 ,原始 套 接 字 就 可 以 通过 
write() 和 send() 函 数 发 送 数 据 报 。 

(3) 读 写 原始 套 接 字 

原始 套 接 字 的 写 操作 通常 使 用 sendto() 和 sendmsg() 函 数 来 完成 。 默 认 情 况 下 ,系统 
内 核 将 自动 填充 IP 头 部 。 但 是 如 果 通 过 setsockopt() 函数 设置 了 IP. HDRINCL 选项 , 则 
必须 在 程序 中 手动 填充 IP 头 部 ,内 核 只 负责 填充 后 的 TP 头 部 的 校 验 和 。 当 数据 报 的 长 度 
大 于 链 路 中 最 大 传输 单元 MTU(Maximum Transmission Unit) 时 ,系统 内 核 会 自动 将 该 数 
据 报 进行 分 片 。 

原始 套 接 字 的 读 操 作 通 常 使 用 recvfrom() 和 recvmsg() 图 数 。 如 果 调 用 connect O PR 
数 连接 成 功 后 就 可 以 使 用 recv() 和 read O 函数 来 接收 数据 报 , 同 时 内 核 也 只 会 将 源 地 址 为 
connect O 因数 连接 的 TP 地 址 的 数据 报 传递 给 这 个 原始 套 接 字 。 


3. 数据 报 的 处 理 


当 系统 收 到 一 个 数据 报 并 且 需 要 将 其 传递 给 原始 套 接 字 时 ,内 核 将 检查 所 有 进程 的 所 
有 套 接 字 ,按照 以 下 原则 寻找 匹配 的 原始 套 接 字 , 然 后 将 数据 报 拷贝 给 所 有 匹配 的 原始 套 

(1) 原始 套 接 字 的 协议 域 和 数据 报 的 协议 域 完全 匹配 并 且 为 非 0 值 , 内 核 将 数据 报 传 
递 给 该 原始 套 接 字 。 

(2) 如 果 原 始 套 接 字 通过 bind O 函数 绑 定 到 一 个 本 地 的 IP 地 址 上 , 则 内 核 只 会 将 目的 
IP 地 址 和 套 接 字 绑 定 的 IP 地 址 匹配 的 数据 报 传递 给 该 原始 套 接 字 。 

(3) 如 果 原 始 套 接 字 调 用 connect() 函 数 和 远程 的 IP 地 址 连接 , 则 内 核 只 将 源 IP 地 址 
和 该 远程 IP 地 址 匹配 的 数据 报 传递 给 该 原始 套 接 字 。 

如 果 一 个 原始 套 接 字 在 创建 时 协议 域 为 0( 即 socket O 函数 的 第 3 个 参数 为 0) ,并 且 没 
有 调用 bind() 和 connect O 函数 进行 绑 定 和 连接 操作 , 则 该 原始 套 接 字 将 接收 所 有 内 核 传 递 
给 其 他 原始 套 接 字 的 数据 报 。 另 外 如 前 所 述 ,原始 套 接 字 不 能 接收 TCP/UDP 包 , 只 能 接 
收 ICMP 包 、IGMP 包 以 及 一 些 协议 域 不 被 系统 内 核 理解 的 数据 报 。 所 以 如 果 想 要 通过 原 
始 套 接 字 来 捕获 TCP/UDP 包 , 在 创建 原始 套 接 字 的 时 候 , 必须 将 第 1 个 参数 设置 为 
PF PACKET, 第 3 个 参数 设置 为 htons(ETH_P_IP) 或 者 htons(ETH_P_ALL)。 
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6.2.2 TCP/IP 网 络 协议 栈 结构 
图 6-1 给 出 了 TCP/IP 协议 栈 模型 中 常见 的 协议 及 其 所 在 的 位 置 。 


FTP | | SMTP TELNET| | arre | | TFTP | 应 用 层 
TCP | wr» 传输 层 
ICMP | | IGMP 
网 络 层 
以 太 网 帧 数据 链 路 层 
网 卡 硬件 物理 层 


图 6-1 常见 网 络 协议 及 其 所 在 位 置 的 示意 图 


6.2.3 数据 的 封装 与 解析 


当 应 用 程序 通过 协议 栈 向 网 络 传送 数据 时 ,应 用 层 的 数据 报 要 依次 传递 给 传输 层 .互联 
层 、 数 据 链 路 层 , 最 后 通过 物理 层 进入 网 络 。 在 数据 报 经 过 每 一 层 的 时 候 ,每 一 层 都 要 在 数 
据 报 中 增加 该 层 的 头 部 (和 尾部 ) 信 息 , 以 此 来 实现 层次 控制 ,这 个 过 程 称 为 数据 的 封装 。 同 
样 , 当 物理 层 收 到 数据 报时 ,需要 依次 传递 给 数据 链 路 层 、 网 络 层 、 传 输 层 ,最 后 送 至 应 用 层 。 
在 数据 报 经 过 每 一 层 时 ,每 一 层 都 需要 对 对 应 于 该 层 的 头 部 (和 尾部 ) 信 息 进行 解析 ,最 终 从 
报 文中 解析 出 应 用 层 数据 后 交 给 应 用 程序 进行 处 理 。 该 过 程 称 为 数据 拆 包 或 解析 。 图 6-2 
给 出 了 数据 的 封装 与 解析 过 程 的 示意 图 。 
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1 以 太 网 首部 | 网 络 层 首部 | 传输 层 首部 


图 6-2 数据 的 封装 与 解析 过 程 示意 图 


应 用 层 数 据 以 太 网 尾部 


本 章 要 实现 的 Sniffer 程序 就 是 利用 原始 套 接 字 捕获 所 有 流 经 本 机 网 卡 的 数据 报 并 对 
其 进行 解析 。 按 照 图 6-2 的 解析 过 程 ,由 底层 往 上 逐 层 解析 ,最 终 将 每 层 解析 的 结果 显示 
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出 来 。 
6.3 ”实例 编程 练习 


6.3.1 编程 练习 要 求 


根据 前 面 章节 介绍 的 有 关 原 始 套 接 字 的 知识 ,利用 原始 套 接 字 编写 一 个 网 络 嗅 探 器 捕 
获 网 络 数据 报 并 且 分 析 基 本 的 数据 报信 息 , 例 如 TP 地址 ,端口 号 ,协议 类 型 .物理 地 址 等 。 
另外 要 求实 现 简单 的 过 滤器 功能 ,能 够 捕获 指定 的 数据 报 , 例 如 捕获 指定 IP 地 址 、 指 定 协议 
的 数据 报 等 。 


6.3.2 编程 训练 设计 与 分 析 


1. 程序 整体 框架 


现代 操作 系统 通常 都 提供 了 对 底层 网 络 数据 报 捕获 的 机 制 。 虽 然 不 同 的 操作 系统 实现 
的 底层 数据 报 捕获 机 制 可 能 不 一 样 ,但 是 从 功能 上 来 说 却 是 大 同 小 异 。 数 据 报 从 网 络 传递 
到 主机 应 用 程序 的 路 径 依次 为 网 卡 、 设 备 驱 动 层 、 数 据 链 路 层 、 网 络 层 、 传 输 层 , 最 后 到 达 应 
用 层 程序 。 本 章 关注 的 数据 报 捕获 机 制 主要 是 在 数据 链 路 层 。 捕 获 的 数据 报 是 内 核对 该 数 
据 报 的 一 份 拷贝 ,这 样 的 数据 报 捕获 机 制 不 会 影响 操作 系统 对 数据 报 进行 网 络 协议 栈 的 处 
理 操作 。 整 个 程序 的 主体 框架 如 图 6-3 所 示 。 

本 程序 主体 结构 主要 分 成 3 个 部 分 ,由 下 而 上 ,分 别 是 数据 捕获 模块 ,数据 报 过 滤 模 块 
和 协议 解析 模块 。 首 先 由 数据 捕获 模块 从 网 络 中 捕获 数据 报 , 然 后 在 数据 报 过 滤 模 块 中 按 
照 设 定 的 过 滤 规 则 将 数据 报 进行 过 滤 ,最 后 再 将 过 滤 后 的 数据 报 通过 协议 解析 模块 解析 显 
示 出 来 。 

本 实验 要 求 用 原始 套 接 字 来 捕获 数据 报 。 原 始 套 接 字 不 仅 可 以 捕获 数据 报 , 还 可 以 发 
送 指定 的 数据 报 。 但 是 在 本 实验 的 程序 中 只 需要 用 到 原始 套 接 字 捕 获 数 据 报 的 功能 。 通 过 
原始 套 接 字 捕获 数据 报 的 流程 如 图 6-4 Bro o 


socket0) 创 建 原始 
TUE BEF 
显示 
iocti0 设 置 套 接 字 
数据 报 RRRA 
数据 报 过 小 模块 | 
ETT uma E 分 析 数据 报 
数据 捕获 模块 
Imm 
Í 一 以 天 网 - ) close() 关 闭 套 接 字 


图 6-3 程序 整体 框架 图 图 6-4 原始 套 接 字 捕获 数据 报 流程 图 
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2. 程序 核心 代码 


程序 定义 了 两 个 类 ,一 个 是 rawsocket 类 , 另 一 个 是 rawsocsniffer 类 。 

rawsocket 类 对 原始 套 接 字 的 一 些 设置 和 操作 进行 封装 , 避 开 了 很 多 烦琐 的 原始 套 接 
字 操 作 , 使 程序 更 加 直观 ,也 使 得 对 原始 套 接 字 的 操作 和 扩充 变 得 更 加 方便 。 

rawsocsniffer 类 对 整个 嗅 探 器 的 主要 功能 进行 封装 ,包括 创建 原始 套 接 字 ,设置 混杂 模 
式 ,捕获 数据 报 并 且 设 置 过 滤 , 对 数据 报 进行 分 析 等 。 

下 面 给 出 各 个 模块 的 核心 代码 。 为 了 使 程序 的 流程 更 加 清晰 ,代码 没有 做 很 严格 的 错 
误 处 理 。 在 实际 应 用 中 应 该 增加 更 为 严格 的 错误 处 理 , 以 此 来 保证 程序 的 健壮 性 。 

(1) rawsocket 类 

rawsocket 类 的 定义 如 下 。 


class rawsocket 
t 
private: 
int sockfd; 
public: 
rawsocket (const int protocol); 
^rawsocket() ; 
//[set. the prcmiscucus mode. 
bool dopramisc (char * nif); 
//capture packets. 
int receive (char * recvbuf,int buflen,struct sockaddr in* framint* addrlen); 
5 
rawsocket 类 维护 1 个 数据 成 员 sockfd, 即 原始 套 接 字句 柄 。 维 护 4 个 成 员 函 数 ,构造 
函数 根据 传人 的 参数 构造 原始 套 接 字 , 在 析 构 函数 中 关闭 该 原始 套 接 字 。dopromisc() 函 数 
对 ioctlO 〇 函数 进 行 了 封装 ,用 于 设置 网 卡 混杂 模式 。receive( ) 函数 对 原始 套 接 字 的 
recvfrom() 函数 进行 了 封装 ,用 于 捕获 数据 报 。 对 原始 套 接 字 的 其 他 设置 和 操作 都 可 以 封 
装 在 该 类 中 。 由 于 本 章 的 程序 只 需要 用 到 上 面 这 些 操 作 , 所 以 其 他 的 操作 没有 封装 在 该 类 
中 ,有 兴趣 的 读者 可 以 对 其 进行 扩充 。 
CD 构造 函数 
构造 函数 根据 参数 传人 的 协议 类 型 创建 原始 套 接 字 (代码 如 下 ) 。 
Tawsocket::rawsocket (const int protocol) 
t 
sockfd- socket (PE. PACKET,SOCK _RAW, protocol); 
if (sockfd« 0) 
t 


perror ("socket error:"); 
} 
} 
@ dopromiscO PRAE 
dopromisc() 函 数 设 置 网 卡 为 混杂 模式 。 该 函数 以 网 卡 的 名 字 为 参数 。 要 对 指定 的 网 
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卡 设置 混杂 模式 ,只 要 以 该 网 卡 名 字 为 参数 调用 dopromisc() 函数 即 可 。 如 果 需 要 恢复 网 
卡 模式 只 需 将 代码 “ifr. ifr_flags | ==IFF_PROMISC” 中 的 “|==” 改 为 *&==” 即 可 (代码 


如 下 )。 


bool rawsocket: :dopranisc (char * nif) 


t 


) 


struct ifreq ifr; 
Strncpy(ifr.ifr name, nif,strlen(nif)* 1); 
if(Goctl(sockfd, SIOOGIFFIAGS, &ifr)-- - 1)) 
t 

perror ("ioctlread:"); 

return false; 
H 
ifrifr flags |-IFF FFCMISC; 
if(ioctl(sockfd, SIOCSIFFIAGS, &ifr)-- -1) 
t 

perror ("ioctlset:"); 

return false; 


return true; 


© receiveO 函数 

receive O 函数 对 原始 套 接 字 的 recvfrom O 函数 进行 了 封装 ,实现 了 对 原始 套 接 字 的 
recvfrom() 函数 更 方便 地 调用 。 当 程序 成 功 地 捕获 了 一 个 数据 报 后 ,recvfrom( ) 函 数 的 返 
回 值 为 接收 到 的 数据 报 的 长 度 ( 代 码 如 下 ) 。 


int rawsocket::receive (char * recvbuf,int buflen, struct sockaddr in* fram,int* addrlen) 


t 


) 


int recvlen; 
recvlen- recvfran (socktd, recvbuf,buflen,0, (struct. sockaddr * ) from, (socklen t* )addrlen); 
recybuf [recvlen]- 'N0'; 


return recvlen; 


(2) rawsocsniffer 类 
rawsocket 类 的 定义 如 下 。 


Class rawsocsniffer:public rawsocket 


t 


private: 

filter simfilter; 

char * packet; 

const int max packet len; 
Public: 

rawsocsniffer (int protocol); 


139. 
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~ rawsocsniffer(); 
bool init(); 

void setfilter (filter myfilter); 

bool testbit (const unsigned int p, int k); 
void setbit (unsigned int gp,int k); 

void sniffer(); 

void analyze () ; 

void ParseRARPPacket () ; 

void ParsehRPPacket () ; 

void ParseIPPacket () ; 

void ParseTCPPacket () ; 

void ParseUDPPacket () ; 

void ParseIOMPPacket () ; 

void print hw addr (const unsigned char* ptr); 
void print ip addr (œonst unsigned long ip); 

J 

rawsocsniffer 类 对 嗅 探 器 的 主要 功能 进行 了 封装 。 该 类 继承 自 rawsocket 类 。 
rawsocsniffer 类 维护 3 个 数据 成 员 : 一 个 filter 类 型 的 数据 结构 simfilter 用 于 设置 过 滤 条 
件 , 一 个 char 型 指针 用 于 存储 数据 报 , 另 一 个 int 型 数据 用 于 记录 最 大 数据 报 的 长 度 。 

O 设置 过 滤 

过 滤 功 能 主要 是 通过 simfilter 数据 成 员 来 实现 的 ,simfilter 的 结构 如 下 。 

typedef struct filter 

t 

unsigned long sip; 
unsigned long dip; 
unsigned int protocol; 

) filter; 

该 程序 实现 了 针对 源 IP, BAY IP 和 协议 类 型 进行 过 滤 的 功能 。filter 结构 维护 了 3 个 
变量 : 源 IP、 目 的 IP 和 协议 类 型 。 程 序 初 始 化 时 会 对 rawsocsniffer 类 的 simfilter 结构 进 
行 设 置 来 设 定 过 滤 条 件 。 例 如 ,如 果 只 要 求 捕获 来 自 IP 地 址 为 "192. 168. 0. 45” 的 数据 报 ， 
则 将 simfilter 结构 中 的 sip 设置 为 192. 168. 0. 45 即 可 。 同 样 如 果 要 对 目的 IP 进行 过 滤 ， 
则 需要 设置 simfilter 的 dip 为 指定 IP。 对 协议 类 型 进行 过 滤 是 通过 对 protocol 变量 进行 操 
作 来 实现 的 。protocol 变量 中 的 每 一 位 对 应 一 种 协议 类 型 。 如 果 某 位 为 1 则 表示 接收 该 位 
所 对 应 协议 的 数据 报 ,为 0 则 表示 不 接收 。protocol 变量 中 哪 一 位 对 应 哪 种 协议 类 型 可 以 
按照 自 定义 的 规则 来 设置 。 在 本 程序 中 ,arp 协议 对 应 protocol 的 第 1 位 ,tcp 协议 对 应 
第 2 位 ,udp 协议 对 应 第 3 位 ,icmp 协议 对 应 第 4 位 。 在 按 协议 类 型 分 析 数 据 报 之 前 , 先 查 
看 protocol 变量 中 该 协议 对 应 的 位 是 否 为 1. 如 果 为 1 则 分 析 该 数据 报 ,和 否则 丢弃 。 例 如 ， 
如 果 protocol 变量 为 0x0002, 二 进 制 为 (0000000000000010) ,其 中 第 2 位 为 1, 其 他 位 全 为 
0, 则 表示 程序 只 分 析 tep 包 。 如 果 protocol 变量 为 0x0005, 二 进 制 为 (0000000000000101) , 
其 中 第 1 位 和 第 3 位 为 1, 其 余 位 都 为 0, 则 表示 程序 只 分 析 udp 包 和 arp 包 。 如 果 protocol 
等 于 0x0000, 所 有 位 都 为 0, 即 没有 设置 过 滤 , 则 程序 将 分 析 所 有 捕获 的 数据 报 。 读 者 可 以 
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对 该 过 滤 机 制 进行 扩充 ,以 实现 更 多 的 过 滤 功 能 。rawsocsniffer 类 有 以 下 3 个 函数 对 
simfilter 变量 进行 维护 。 

a. setfilter() 函数 

setfilterO 函数 根据 传人 的 参数 设置 simfilter( 代 码 如 下 )。 


void rawsocsniffer: :setfilter (filter nyfilter) 
( 
sim£ilter.protoool-myfilter.protocol; 
sim£ilter.dip- nyfilter.dip; 
1 
b. testbitO 函数 
testbit() 函 数 用 于 测试 某 一 无 符号 整 型 变量 的 指定 位 是 否 为 1( 代 码 如 下 )。 


bool rawsocsniffer::testbit (const unsigned int p,int k) 
t 
if ((p>> (k- 1)) &0x0001) 
return true; 
else 
return false; 
H 
c. setbit O FRA 
setbit O 图 数 用 于 将 某 一 无 符号 整 型 变量 的 指定 位 置 1( 代 码 如 下 ) 。 
void rawsocsniffer::setbit (unsigned int &p,int k) 
t 


P= (p) | ((0x0001)«« (k- 1); 
} 


@ 数据 报 捕获 

sniffer() 函 数 用 于 启动 数据 报 的 捕获 过 程 ,该 函数 通过 循环 调用 基 类 rawsocket 的 
receive PŘ ŽOK JAAK% ÍR ,receive 函数 的 返回 值 为 捕获 到 的 数据 报 长 度 ,所 以 当 返 回 值 大 
于 0 时 表示 捕获 到 数据 报 ,然后 调用 analyze() 函 数 对 捕获 到 的 数据 报 进行 处 理 ( 代 码 
如 下 )。 


void rawsocsniffer::sniffer() 
t 
struct sockaddr in fram; 
int sockaddr len- sizeof (struct sockaddr in); 
int recvlen- 0; 
while(1) 
t 
recvlen- receive (packet, max packet len,&fram,&sockeddr len); 
if(recvlen» 0) 
t 
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analyze () ; 


continue; 


) 


rawsocsniffer 类 维护 了 一 个 数据 成 员 packet 来 临时 存储 捕获 到 的 数据 报 。packet 是 
一 个 char 型 指针 ,rawsocsniffer 类 的 构造 函数 给 该 指针 分 配 了 一 块 大 小 为 max_packet_len 
的 内 存 空间 。 在 本 程序 中 max packet len 的 值 设置 为 2048。 


3. 数据 报头 部 格式 


本 程序 要 求 分 析 一 些 常见 的 协议 ,如 ARP 协议 ,IP 协议 .TCP 协议 `UDP 协议 和 
ICMP 协议 。 各 种 协议 的 数据 报头 部 结构 定义 如 下 。 


COD 以 太 网 帧 头 部 


以 太 网 帧 头 部 结构 定义 如 下 : 


typedef struct ether header t{ 
BYTE des hw acir[6]; 
BYTE src hw addr[6]; 
WORD frametype; 

) ether header t; 


(2) IP 包头 部 
IP 包头 部 结构 定义 如 下 : 


typedef struct ip header t{ 
BYTE hlen ver; 
BYTE tos; 

WORD total len; 
WORD id; 
WOD flag; 
BYE ttl; 
BYTE protocol; 
WORD checksum; 
DWORD src ip; 
DWORD des ip; 

} ip header t; 


(3) ARP 包头 部 


ARP 包头 部 结构 定义 如 下 : 


typedef struct arp header t( 
WORD hw type; 


// 目 的 MC 地 址 
// 源 MC 地 址 
/数据 长 度 或 类 型 


// 头 部 长 度 和 版 本 信息 
//8 位 服务 类 型 
//16 位 总 长 度 
//16 位 标识 符 

//3 位 标志 +13 位 片 偏 移 
//8 位 生存 时 间 

//8 位 上 层 协 议 号 
/16 位 校 验 和 

//32 位 源 rP Hh h: 
//32 位 目的 re i hk: 


//16 位 硬件 类 型 
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WORD prot type; //16 位 协议 类 型 
BYTE hw addr len; //8 位 硬件 地 址 长 度 
BYTE prot addr len; //8 位 协议 地 址 长 度 
"WORD flag; //16 位 操作 码 
BYTE send hw adir[6]; // 源 Ethernet 网 地 址 
DRCRD send prot addr; // 源 下 地 址 
BYTE des hw ackir [6]; // 目 的 Ethernet 网 地 址 
DWCRD des prot addr; // 目 的 下 地 址 
} arp header t; 
(4) TCP 包头 部 
TCP 包头 部 结构 定义 如 下 : 
typedef struct top header tf 
WORD src port; // 源 端口 
WORD des port; // 目 的 端口 
DWCRD seq; //sea 
DWORD ack; /fack 
BYIE len res; US 
BYIE flag; // 标 志 字 段 
WORD window; // 窗 口 大 小 
WORD checksun; // 校 验 和 
WORD urp; // 紧 急 指针 
) tœ header t; 
(5) UDP 包头 部 
UDP 包头 部 结构 定义 如 下 : 
typedef struct udp header t( 
WORD src port; // 源 端口 
WORD des port; // 目 的 端口 
WORD len; /数据 报 总 长 度 
WORD checksum; // 校 验 和 
} udp header t; 
(6) ICMP 包头 部 
ICMP 包头 部 结构 定义 如 下 : 
typedef struct iam header tí 
BYTE type; /8 位 类 型 
BYIE code; //8 位 代码 
WORD checksum; //16 位 校 验 和 
WORD id; //16 位 标识 符 
"WORD seg; //16 位 序列 号 
} iam header t; 
4. 数据 报 解析 


数据 报 的 解析 过 程 就 是 对 捕获 的 数据 报 按照 数据 链 路 层 (MAC 协议 )、 网 络 层 (IP、 
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ARP/RARP 协议 ) 传输 层 (TCP UDP, ICMP 协议 ) 和 应 用 层 (HTTP 协议 ) 的 层次 结构 自 


底 向 上 进行 解析 ,分 析 各 个 协议 的 字段 ,最 后 将 解析 结果 显示 输出 。 数 据 报 的 解析 过 程 如 
图 6-5 所 示 。 


RARP ARP 


UDP < 一作 输 层 及 其 他 协议 类 型 ICMP 


TCP 


ParseUDPPacket() Parse TCPPacket() ParselCMPPacket() 
解码 结束 


图 6-5 数据 报 解析 流程 图 


程序 每 捕获 到 一 个 数据 报 就 调用 analyze O 函数 对 该 数据 报 进行 解析 。analyze( ) 函数 
根据 以 太 帧 的 类 型 调用 相应 的 上 层 解 析 函 数 对 数据 报 进行 解析 。 帧 类 型 0x0800 表示 上 层 
为 IP 包 ,0x0806 表示 上 层 为 ARP 包 ,0x0835 表示 上 层 为 RARP 包 。 调 用 上 层 解析 函数 前 
先 根据 过 滤器 的 设置 判断 是 否 要 对 该 协议 的 数据 报 进行 解析 (代码 如 下 所 示 ) 。 

void rawsocsniffer::analyze() 

1 


ether header t* etherpacket- (ether header t* )packet; 
if (simfilter.protocol-- 0) 
simfilter.protocol- Oxff; 
switch (ntohs (etherpacket.— frametype)) 
t 
Case 0x0800: 
if(((simfilter.protocol)»» 1)) 
t 
cout«« "Ana k ------------ ippacket----------------- * /"««endl; 
ParseIPPacket () ; 
H 
break; 
case 0x0806: 
if(testbit (sim£ilter.protocol, 1)) 
t 
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cout«« Nnn * 一 一 一 一 一 一 一 一 一 一 一 am Pacjkt 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 * /"«cendl; 


ParsenRPPacket () ; 
} 
break; 
case 0x0835: 
if(testbit (simfilter.protoool, 5)) 
£ 


cout«« "An/* ----------- RMRPpacket---------------- * /"«cenil; 


ParseRARPPacket () ; 
H 
break; 
default: 


(1) 解析 ARP 包 
程序 解析 了 ARP 包 的 几 个 主要 字段 ,包括 硬件 地 


址 长 度 、 协 议 地 址 长 度 、 协 议 类 型 、 操 


作 类 型 以 及 源 IP 地 址 、 源 MAC 地 址 、 目 的 IP 地 址 及 目的 MAC 地 址 。 其 中 操作 类 型 为 
0x0001 表示 ARP 请 求 ,0x0002 表示 ARP 应 答 ( 代 码 如 下 )。 


void rawsocsniffer::arppacket analyze() 

f 
arp packet t* arppacket- (arp packet t * )packet; 
print hw addr (arppacket-> arpheader.des hw addr); 
print hw adir(arppacket-» arpheader.send hw addr); 
cout«« endl; 
print ip adir (arppacket-> arpheader.send prot addr); 
print ip addr (arppacket-> arpheader.des prot addr); 

i 


(2) 解析 IP £u 
程序 首先 判断 过 滤 条 件 ,根据 过 滤器 的 源 IP 和 目 


的 IP 对 数据 报 进行 过 滤 。 然 后 再 根 


J IP 层 协 议 域 字 段 的 值 来 调用 对 应 的 上 层 协 议 解析 函数 对 数据 报 进行 解析 。 其 中 协议 域 
字段 值 为 1 KR EEH ICMP 包 ,6 表示 TCP 包 ,17 表示 UDP 包 (代码 如 下 ) 。 


void rawsocsniffer::ParseIPPacket () 
t 
ip packet tx ippacket- (ip packet tx )packet; 


cout<< "igheader protocol :"<< int (ippacket-> ipheader protocol) «« endl; 


if(simfilter.sip!- 0) 
t 
if(simfilter.sip!= (ippacket-» ipheader.src ip)) 
retum; 
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} 
if(simfilter.dip!- 0) 
t 
if(simfilter.dip!- (ippacket-> ipheader.des ip)) 
retum; 
} 
Switch (int (ippacket-> ipheader.protocol)) 
t 
case 1: 
if(testbit (simfilter.protocol,4)) 
t 
cout«« "Feceived an IOVP packet"«« endl; 
ParseIOMPPacket () ; 
) 
break; 
case 6: 
if(testbit (simfilter.protoool,2)) 
t 
cout«« "Feceived an TCP packet"«« endl; 
ParseTCPPacket () ; 
H 
break; 
case 17: 
if(testbit (simfilter.protocol,3)) 
t 
cout«« "Feceived an UDP packet"«« endl; 
ParseUDPPacket () ; 
H 
break; 


// 省 略 针 对 其 他 协议 的 分 析 


) 


(3) 解析 ICMP 包 
程序 解析 了 ICMP 包 的 类 型 编码、 标示 符 和 序列 号 字段 (代码 如 下 )。 


void rawsocsniffer::iamppacket analyze() 


I 


iam packet t* iamgoacket- (iamp packet t * )packet; 
cout<< setw (20) «« "MAC address: from"; 

print hw addr (iappacket-> etherheader.src hw addr); 
cout«« "to"; 

print hw addr (iappacket-> etherheader.des hw addr); 
cout<< endl«« setw (20)«« "IP address: fram"; 
print ip adir(iampecket-» ipheeder.src ip); 

cout«« "to"; 


} 
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print ip acr (ingpecket-> ipheader.des ip); 

cout«« endl; 

cout«« setw (12) «« "iam type:"«« int (iampacket—» iamheader.type) << "iam code:" 
<< int (ianppacket-> iampheader.code)<< endl; 

Cout<< setw (12) «« "iar id:"«« ntohs (iampacket-» iamheader.id)«« " iam seq:" 
<< ntohs (icmppacket-> iarmpheader.seqg) «« endl; 


(4) 解析 TCP 包 
程序 解析 了 TCP 包 的 源 端 口 . 目 的 端口 .序列 号 和 ACK 等 字段 (代码 如 下 ) 。 


void rawsocsniffer::tceppacket analyze() 


f 


) 


top packet t * topacket= (tœ packet t* )packet; 

cout«« setw (20) «« "MAC address: fram"; 

print hw addr (toppacket-> etherheader.src hw addr); 

cout«« "to"; 

print hw addr (tcppacket-» etherheader.des hw addr); 

cout«« endl«« setw (20) << "IP address: fram"; 

print ip acr(teppacket-» ipheader.src ip); 

cout«« "to"; 

print ip addr(tappacket-» ipheader.des ip); 

cout«« endl; 

cout<< setw (10) «« "srcport:"«« ntchs (tcrpacket-> tepheader.src port)«« "desport:" 

<< ntchs (tcgpacket-» topheader.des port)«« endl; 

cout«« "seq:"<< ntchl (tcrpacket-> tepheader . seq) << "ack:"<< ntchl (tcrpacket-> tegheader .ack) << 
endl; 


(50 解析 UDP 包 
程序 解析 了 UDP 包 的 源 端口 .目的 端口 和 数据 报 长 度 等 字段 (代码 如 下 ) 。 


void rawsocsniffer::uckpacket. analyze () 


t 


udp packet t * udppacket- (udp packet t* )packet; 
cout<< setw (20) «« "MAC address: fram"; 
print hw addr (udppacket-> etherheader.src hw adir); 


cout<< 
print hw addr (udppacket-> etherheader.des hw addr); 

cout<< endl«« setw (20)<< "IP address: from"; 

print ip adir(udppacket-» ipheader.src ip); 

cout«« "to"; 

print ip addr (udppacket-> ipheader.des ip); 

cout«« endl; 

cout«« setw (10) «« "srcport:"<< ntchs (udppacket-> udpheader .src port)«« "desport: " 
<< ntchs (udkpacket—» udrheader.des port)V 
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<< "length:"«« ntohs (udepacket.— udpheader . 1en) «« endl; 
$ 


6.4 扩展 与 提高 
6.4.1 使 用 libpcap 捕获 数据 报 


1. libpcap 介绍 


对 数据 报 的 捕获 也 可 以 借助 Linux 下 的 libpcap 开发 包 来 实现 。 该 开发 包 是 由 
Berkeley 大 学 的 Van Jacobson,Craig Leres 和 Steven McCanne 合作 开发 的 , 它 提 供 了 丰富 
的 API 函数 ,可 以 帮助 程序 员 快 速 地 开发 数据 报 捕 获 软件 。libpcap 的 官方 网 址 是 : www. 
tcpdump. org。 读 者 可 以 在 此 网 站 上 下 载 该 开发 包 。 该 开发 包 对 捕获 网 络 数据 报 的 功能 进 
行 了 封装 ,使 用 起 来 非常 方便 。 并 且 支 持 自 定义 过 滤 规则 ,只 捕获 用 户 感 兴趣 的 数据 报 。 其 
过 滤 规 则 非常 详细 ,可 以 进行 各 种 复杂 组 合 的 过 滤 。 由 于 它 的 过 滤 模 块 是 在 内 核 层 次 中 实 
现 的 ,所 以 效率 非常 高 。 很 多 著名 的 软件 如 抓 包 工具 tepdump 和 网 络 人 侵 检测 系统 snort 
都 是 基于 libpcap 开发 的 。 


2. libpcap 的 功能 


libpcap 的 功能 可 以 归纳 为 以 下 几 点 : 

Cb 捕获 数据 报 

捕获 数据 报 是 libpcap 最 基本 也 是 最 强大 的 功能 。 使 用 libpcap 可 以 方便 、 高 效 地 捕获 
网 络 数据 报 。 

(2) 过 滤 数 据 报 

libpcap 提供 了 强大 的 过 滤 机 制 ,在 内 核 层 中 对 数据 报 进 行 过 滤 ,效率 非常 高 ,而且 其 过 
滤 规 则 非常 详细 ,可 以 进行 各 种 复杂 组 合 , 实 现 强大 的 过 滤 功 能 。 

(3) 分 析 数 据 报 

libpcap 在 捕获 数据 报时 提供 了 一 些 辅助 信息 ,比如 捕获 时 间 、 数 据 报 长 度 等 信息 。 可 
以 帮助 开发 者 更 好 地 分 析 数 据 报 。 

(4) 存储 数据 报 

libpcap 提供 了 将 数据 报 存 储 到 本 地 的 功能 ,从 网 上 捕获 数据 报 后 ,可 以 先 将 其 存储 在 
本 地 电脑 上 ,以 后 再 对 其 进行 分 析 。libpcap 提供 了 一 种 机 制 对 离线 的 数据 报 进行 分 析 , 即 
从 libpcap 保存 在 本 地 的 文件 中 读 取 数据 报 进 行 分 析 。 


3. libpcap 进行 数据 报 捕获 和 分 析 的 步骤 


使 用 libpcap 进行 数据 报 捕获 和 分 析 的 步骤 如 下 : 

(1) 使 用 函数 pcap_findalldevs() 获 取 设 备 列表 。 

(2) 使 用 函数 pcap_lookupnet() 获 取 网 络 地 址 和 子 网 掩 码 。 
(3) 使 用 函数 pcap_open_live() 打 开 指定 的 设备 。 

(4) 使 用 函数 pcap_compile() 编 译 过 滤 规 则 。 
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(5) 使 用 函数 pcap_setfilter() 设 置 过 滤 规则 。 


(6) 使 用 函数 pcap_loop() 来 循环 捕获 数据 报 , 并 在 该 函数 中 调用 数据 报 分 析 模 块 解析 
数据 报 。 


(7) 使 用 函数 pcap_close() 关 闭 设 备 句柄 。 
使 用 libpcap 捕获 并 分 析 数 据 报 的 流程 如 图 6-6 所 示 。 


pcap_findalldevs() 
获取 网 络 设备 列表 


p: 
peap. lookupnet() EH. pcap. setfilter() 
网 络 地 址 和 子 网 掩 码 设置 过 滤器 
— NEZUN 
pcap. open. live 1]JF- peap loop() PacketHandler() 
设备 ， 设 为 混杂 模式 循环 捕获 数据 报 处 理 数据 报 
— 
pcap_compile() pcap_close() 
编译 过 滤器 关闭 网 络 设备 


图 6-6 数据 报 捕获 流程 图 


4. 使 用 libpcap 捕获 数据 报 的 关键 代码 


(1) 获取 并 且 输 出 网 络 设备 列表 信息 
首先 通过 pcap_ findalldevs O 函数 获取 本 机 所 有 网 络 设备 的 列表 ,并 且 将 其 存储 在 
device 变量 中 。 然 后 通过 ifprint() 函 数 将 找到 的 设备 信息 打印 出 来 (代码 如 下 )。 


if (pcap findalldevs (&devices,errbuf)-- - 1) 

t 
printf ("Error in pcap findalldevs():$s W",errbuf); 
return- 1; 


printf ("Find the following devices on your machine: Vn"); 
ifprint (devices, devname) ; 
} 
(2) 获取 网 络 地 址 和 子 网 掩 码 
其 中 参数 devname 为 网 络 设备 的 名 字 , 获 取 的 网 络 地 址 存储 在 变量 net. ip P. F A HE 
码 存储 在 变量 net mask 中 (代码 如 下 ) 。 
if (cæ lookupnet (dewneme,&net. ip,&net mask,errbuf)-- - 1) 
t 


printf ("Error in the pcap lookupnet: $s\n",errbuf); 
goto error; 
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(3) 打 


开 指定 设备 


其 中 参数 devname 为 要 打开 的 设备 名 字 ( 代 码 如 下 ) 。 


if((dev handle pcap-pcap open live(devname,BUFSIZ,1,0,errbuf))==NJIL) 


t 


printf ("Error in the pcap open live! Wn"); 
goto error; 


) 


(4) 编译 和 设置 过 滤 规 则 
其 中 参数 bpf_filter 的 数据 类 型 为 struct bpf. program. & Xt bpf_filter_string 是 设置 的 


过 滤 字 符 串 


o libpcap 中 支持 多 种 类 型 的 过 滤 ,功能 非常 强大 。 包 括 基于 IP 地 址 、MAC 地 


址 、 端 口号 等 类 型 的 过 滤 ,还 可 以 通过 一 些 关键 字 设 置 过 滤 表 达 式 ,组 合 出 各 种 过 滤 类 型 。 
设置 过 滤器 最 主要 的 工作 在 于 如 何 根据 规则 构造 过 滤 表 达 式 (代码 如 下 ) 。 


if((pcap camile(dev handle posp,&hpf filter,bpf filter string,0,net ip))--- 1) 


t 


printf ("Error in the pcap ompile!\n"); 
goto error; 


if((pcap setfilter(dev handle pcap, gkpf filter))--- 1) 


t 


printf ("Error in the pcap setfilter!in"); 


goto error; 
) 

) 

(5) 过 滤 表 达 式 

过 滤 表 达 式 的 语法 主要 有 以 下 几 点 。 

(D 表达 式 支持 逻辑 操作 符 , 可 使 用 关键 字 and. or 和 not 对 子 表达 式 进行 组 合 ,同时 支 
持 使 用 小 括号 。 

© 基于 协议 的 过 滤 要 使 用 协议 限定 符 , 协 议 限定 符 可 以 为 ip、arp、rarp、tcp 和 
udp 等 。 

© 基于 MAC 地 址 的 过 滤 要 使 用 限定 符 ether( 代 表 Ethernet 网 地 址 ) 。 当 该 MAC 地 


址 仅 作为 源 地 址 时 过 滤 表 达 式 为 ether src mac_addr, 仅 作为 目的 地 址 时 表达 式 为 ether dst 
mac_addr, 既 作为 源 地 址 又 作为 目的 地 址 时 表达 式 为 ether host mac_addr。 此 外 应 注意 
mac addr 应 遵循 由 冒号 分 隔 的 十 六 进 制 格式 ,如 00:E0:4C:E0:38:88 ,否则 编译 过 滤器 时 


会 出 错 。 
(D #7 


F IP 地 址 的 过 滤 应 使 用 限定 符 host( 代 表 主 机 地 址 )。 当 该 IP 地 址 仅 作为 源 地 


址 时 过 滤 表 达 式 为 src host ip_addr, 仅 作为 目的 地 址 时 表达 式 为 dst host ip_addr, 既 作为 
源 地 址 又 作为 目的 地 址 时 表达 式 为 host ip_addr。 


@ 基于 


F 端口 的 过 滤 应 使 用 限定 符 port。 例 如 仅 接收 80 端口 的 数据 报 则 表达 式 为 
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port 80, 

设置 过 滤 字 符 串 的 示例 如 下 。 

例 1: 只 捕获 arp 或 icmp 包 

过 滤 表 达 式 为 : arp or (ip and icmp) ,或 者 简写 为 : arp or icmp 

例 2: 捕获 以 192. 168. 1. 27 为 源 或 目的 地 址 的 端口 为 80 的 tcp 包 

过 滤 表 达 式 为 : (ip and tcp) and (host 192. 168. 1. 27) and (port 80) 

fJ 3. 捕获 主机 192. 168. 1. 27 5j 192. 168. 1. 22 之 间 传 递 的 所 有 udp fi 

过 滤 表 达 式 为 : (ip and udp) and (src host 192. 168. 1. 27 and dst host 192. 168. 1. 22)or 
(dst host 192. 168. 1. 27 and src host 192. 168. 1. 22)) 

例 4: 捕获 从 mac 地 址 00-13-D3-A1-D2-F6 发 送 至 00-50-56-C0-00-01 所 有 的 arp 包 

过 滤 表 达 式 为 : arp and (ether src 00:13: D3: A1: D2: F6 and ether dst 00:50:56:C0: 
00:01) 

(6) 捕获 数据 报 ( 代 码 如 下 ) 


pcap loop(dev handle pcap,- 1,Packethandler,NULL) ; 


其 中 第 1 个 参数 是 已 经 打开 的 设备 接口 句柄 ,第 3 个 参数 是 数据 报 处 理 函 数 , 该 函数 有 
固定 的 格式 ,其 定义 如 下 。 


void Packethandler (u_char * argument, const struct pcap pkthdr * packet header,omst u char * packet _ 


content) 


pcap loop 函数 捕获 到 一 个 数据 报 后 会 自动 调用 Packethandler PR 8 XJ Zi Jš He WE fT Ae 
理 。 并 且 自 动 将 该 数据 报 的 信息 作为 参数 传递 给 Packethandler 函数 。 可 以 在 
Packethandler 函数 中 增加 对 数据 报 进行 解析 的 代码 ,其 中 第 2 个 参数 packet. header 为 
libpcap 在 捕获 数据 报时 增加 的 辅助 头 部 信息 ,包括 时 间 戳 .数据 报 长 度 等 ,第 3 个 参数 
packet_content 即 为 捕获 到 的 数据 报 。 至 此 ,就 可 以 按照 前 面 介 绍 的 数据 报 的 解析 过 程 对 
数据 报 进 行 解 析 。 解 析 过 程 同 图 6-5 一 致 

(7) 关闭 设备 

程序 结束 时 注意 要 关闭 设备 ,释放 资源 (代码 如 下 ) 。 


pcap close (dev handle pcap); 


5. 注意 事项 


CD 程序 在 最 后 编译 时 必须 加 上 编译 选项 -lpcap ,表示 需要 用 到 libpcap 的 库 函 数 ,编译 
才能 通过 。 

(2) libpcap 只 能 捕获 数据 报 而 不 能 发 送 数据 报 (windows 下 的 winpcap 可 以 发 送 数据 
报 ) ,如 果 要 想 进 行 数 据 报 的 发 送 操作 则 需要 用 到 Linux 下 的 另 一 个 开发 包 libnet, 通 过 该 
开发 包 提 供 的 一 些 接口 函数 来 填充 和 发 送 数据 报 。 
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6.4.2 使 用 tcpdump 捕获 数据 报 


1. tcpdump 介绍 


tcpdump 是 一 种 功能 很 强 的 网 络 数据 截取 分 析 工 具 。 它 支持 针对 网 络 层 协议、 主机、 
网 络 或 端口 的 过 滤 ,支持 基于 正则 表达 式 的 过 滤 方 式 ,具有 强大 的 功能 和 灵活 的 截取 策略 。 
tcpdump 主要 用 于 网 络 的 分 析 维护、 统计、 检测 ,如 定位 网 络 瓶颈 、 统 计 网 络 流量 使 用 情况 
等 。 更 重要 的 是 tepdump 是 开源 项 目 , 提 供 了 源 代 码 , 公 开 了 接口 ,因此 具备 很 强 的 可 扩展 
性 ,对 于 网 络 维护 和 管理 者 来 说 是 非常 有 用 的 工具 。 大 多 数 的 Linux 操作 系统 都 将 
tcpdump 集成 在 内 。 因 为 tepdump 需要 将 网 卡 设置 为 混杂 模式 ,所 以 需要 root 权限 才能 执 
行 tepdump 命令 。 


2. tcpdump 命令 
该 命令 使 用 的 语法 如 下 。 


tepdum — [- adeflnNopgRStuvxX] [- c oount][-C file size][-F file] 
[- i interface] [- m module] [- r file] [- s snaplen] [- T type] [- w file] 
[- E algo:secret] [expression] 


可 以 通过 对 tepdump 选项 ,表达 式 进 行 组 合 ,以 及 对 参数 进行 设 定 ,从 大 量 的 网 络 数据 
中 过 滤 出 有 用 的 信息 来 分 析 网 络 问题 。 


3. tcpdump 选项 (option) 


tepdump 可 用 的 选项 如 表 6-1 所 示 。 
表 6-1 tcpdump 可 用 的 选项 


选 项 & X 

-a 把 网 络 地 址 和 广播 地 址 转换 成 名 字 

-dd 将 匹配 数据 报 代码 以 c 程序 格式 输出 

-ddd 将 匹配 的 数据 报 代码 以 十 进 制 形式 输出 

k 输出 数据 链 路 层 的 头 部 信息 

-f 将 外 部 的 Internet 地 址 以 数字 的 形式 打印 出 来 

41 对 标准 输出 进行 缓冲 ,可 以 在 捕捉 数据 的 同时 查看 数据 

-n 不 把 网 络 地 址 转换 成 主机 名 
不 输出 主机 名 中 的 域名 部 分 ,例如 “tcpdump. org” 只 输出 “tcpdump” 
不 运行 数据 报 匹 配 模板 的 优化 器 

-P 不 将 网 络 接口 设置 成 混杂 模式 

-q 快速 输出 ,只 输出 较 少 的 协议 信息 
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续 表 
选 项 会 *= 
-S 将 tcp 的 序列 号 以 绝对 值 的 形式 输出 ,而 不 是 相对 值 
-t Aft S th B 6 — (137 Epit Te E 
-u 输出 未 解码 的 NFS 句柄 
-v 输出 比较 详细 的 信息 ,例如 在 ip 包 中 可 以 包括 ttl 和 服务 类 型 的 信息 
-vv 输出 详细 的 报 文 信息 
-vvv 输出 更 为 详细 的 报 文 信息 
-c count 指定 监听 数据 报 数量 , 当 收 到 指定 的 包 的 数目 后 退出 tepdump 
-C file size 限定 数据 报 写 人 文件 的 大 小 
-F file 从 指定 的 文件 中 读 取 过 滤 正 则 表达 式 , 忽 略 命令 行 中 的 表达 式 
-i interface 指定 监听 网 络 接口 
-m module 打开 指定 的 SMI MIB 组 件 
-r file 从 指定 的 文件 中 读 取 数 据 报 (这 些 数据 报 一 般 通 过 -w 选项 产生 ); 
pU 从 每 个 数据 报 中 读 取 最 开始 的 snaplen 个 字 节 ,而 不 是 默认 的 68 个 字 节 ;将 截 
取 的 数据 报 直接 解释 为 指定 类 型 的 报 文 
-T type 把 捕获 的 数据 报 解析 成 指定 的 type。 目 前 已 知 的 类 型 有 : rpc.rtp.rtcp.vat 和 wb 
-w file 将 捕获 的 数据 报 写 人 文件 ,不 分 析 和 打印 数据 报 
-E algo:secret 用 algo:secret 解密 IPsec ESP 数据 报 


4. tcpdump 表达 式 (expression) 


tepdump 利用 正则 表达 式 来 过 滤 数 据 报 。 如 果 没 有 指定 表达 式 , 则 捕获 全 部 数据 报 ， 
否则 ,只 捕获 满足 表达 式 为 真 的 数据 报 。 表 达 式 有 3 类 常用 的 关键 字 : type dir 和 proto. 

CD type 是 指定 类 型 的 关键 字 , 包 括 host、net 和 ports WEH host, 

例如 : tcpdump host 192. 168. 1. 27 表示 捕获 IP 为 192.168.1.27 的 主机 收发 的 所 有 数 
据 报 。 

(2) dir 是 指定 数据 报 传输 方向 的 关键 字 , 包 括 src、dst、src or dst 和 src and dst, ik% 
为 src or dest。 

例如 : tcpdump dst net 192. 168. 1. 28 表示 捕获 目标 网 络 地 址 为 192. 168. 1. 28 的 所 有 
数据 报 。 

(3) proto 是 指定 协议 的 关键 字 , 包括 ether, fddi, tr, ip, ip6, arp, rarp、 decnet, tcp 
和 udp. 

例如 : tcpdump udp 表示 捕获 所 有 udp 协议 的 数据 报 。 

(4) 其 他 重要 的 关键 字 还 有 gateway, broadcast, less, greater 和 3 种 逻辑 运算 符 ( 取 非 
运算 符 “not" 或 者 1”; 与 运算 符 “and” 或 者 "&.&”; 或 运算 是 “or” 或者" | ”) 将 这 些 关 键 字 灵 
活 地 组 合 就 能 构造 出 各 种 复杂 的 过 滤 条 件 。 
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5. 简单 示例 

CD 捕获 arp 和 udp 包 : 

tcpdump arp or udp 

(2) 捕获 除了 主机 名 为 alice 之 外 的 所 有 IP £l. 

tcpdump ip host not alice 

(3) 捕获 主机 IP 地 址 为 192. 168. 1. 102 接收 和 发 出 的 telnet 数据 报 : 
tcpdump tcp and host 192.168.1.102 and port 23 


(4) 捕获 源 IP 地 址 为 192. 168. 1. 1, 目 的 IP 地 址 为 192. 168. 1. 102 ,端口 为 80 的 数 
据 报 : 


tcopdnp tcp and src host 192.168.1.1 and dst host 192.168.1.102 and port 80 
(5) 捕获 主机 IP 地 址 为 192. 168. 1. 1 和 192. 168. 1. 102 之 间 传 递 的 所 有 tep 包 : 
tcpamp ip and tcp andN (N (src host 192.168.1.1 and dst host 192.168.1.102N) or^ (dst host 192.168.1.1 and src 
host 192.168.1.102N) V) 


6. 注意 事项 


在 表达 式 中 用 到 括号 时 ,一 定 要 在 括号 前 加 反 斜 本 。 以 上 示例 只 是 利用 正则 表达 式 组 
合 出 的 一 些 简单 的 过 滤 条 件 ,读者 完全 可 以 根据 自己 的 需求 利用 正则 表达 式 组 合 出 更 复杂 
的 过 滤 条 件 。 


第 ,7 刘 
基于 OpenSSL 的 安全 Web 服 务 器 程序 


7.1 本 章 训练 目的 与 要 求 


Web 服务 使 用 的 传输 协议 是 HTTP 协议 。HTTP 采 用 明文 传输 ,网 络 传输 中 的 重 
要 数据 有 被 第 三 方 截获 的 危险 。 安 全 超 文本 传输 协议 (HTTP over SSL, HTTPS) 用 于 
保护 敏感 数据 在 Web 系统 中 的 传输 安全 。HTTPS 通过 安全 套 接 字 协 议 层 (Secure 
Socket Layer. SSL) 加密 HTTP 数据 ,并 可 以 与 HTTP 数据 共 存 。 因 此 ,研究 基于 
OpenSSL 的 安全 Web 服务 器 软件 的 设计 与 编程 方法 ,对 于 提高 Web 系统 的 安全 性 有 
着 重要 的 意义 。 

本 章 训练 的 主要 目的 是 : 

(1) 理解 HTTPS 协议 与 SSL 协议 的 基本 工作 原理 。 

(2) 掌握 使 用 OpenSSL 编程 的 方法 。 

(3) 掌握 安全 Web 系统 设计 的 基本 设计 与 编程 方法 。 

本 章 训练 的 要 求 是 : 

(1) 在 Linux 平 台 上 利用 OpenSSL JE ,编写 一 个 Web Server 程序 。 

(2) Server 程序 要 能 够 并 发 处 理 多 个 请 求 , 要 求 至 少 能 支持 HTTPS 协议 下 最 基本 的 
Get 命令 ,可 以 增强 Web Server 的 功能 ,如 支持 Head、Post 以 及 Delete 命令 等 。 

(3) 编写 必要 的 客户 端 测试 程序 ,用 于 发 送 HTTPS 请 求 并 显示 返回 结果 。 


7.2. 相关 背景 知识 


7.2.1 SSL 协议 介绍 


SSL 是 Netscape 公司 于 1996 年 提出 的 安全 通信 协议 , 它 为 网 络 应 用 层 的 通信 提供 了 
认证 数据 保密 和 数据 完整 性 服务 。 设 计 SSL 的 主要 目的 是 为 网 络 环境 中 两 个 通信 应 用 进 
程 之 间 提 供 一 个 安全 通道 。 

图 7-1 给 出 了 SSL 协议 栈 的 结构 示意 图 。SSL 借助 TCP 协议 来 提供 端 到 端的 安全 服 
务 ,SSL 并 不 是 一 个 单独 的 协议 ,而 是 两 层 结构 的 协议 集合 ,上 层 包括 SSL 握手 协议 、SSL 
修改 密 文 规约 协议 和 SSL 警告 协议 ,下 层 包 括 SSL 记录 协议 。 


1. SSL 记录 协议 
SSL 记录 协议 为 通信 提供 机 密 性 和 完整 性 保护 ,图 7-2 给 出 了 该 协议 的 工作 流程 ,具体 
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SSL 握 手 协议 | SSL 修改 密 文 规约 协议 | SSL 警 告 协议 | HTTP 


SSL 记 录 协 议 


TCP 


IP 


图 7-1 SSL 协议 栈 结构 示意 图 


工作 过 程 如 下 : 

(1) 接收 到 应 用 层 数 据 以 后 ,SSL 记录 协议 首先 对 其 进行 分 组 ,分 组 后 数据 块 的 长 度 不 
超过 24(16384) 字 节 。 

(2) 对 数据 块 进行 压缩 ,压缩 过 程 中 不 能 出 现 信息 的 丢失 ,同时 增加 的 长 度 不 能 超过 
1024B( 压 缩 处 理 是 可 选 的 , 现 有 的 SSL3.0 和 TLS1.0 都 没有 指定 压缩 算法 ) 。 

(3) 在 压缩 后 的 数据 上 计算 消息 认证 码 MAC ,并 把 MAC 附加 在 数据 块 之 后 。 

(4) 对 添加 MAC 后 的 数据 块 进行 加 密 , 加 密 可 以 采用 流 加 密 或 块 加 密 的 方式 。 

(5) 为 加 密 后 的 数据 添加 SSL 记录 协议 的 头 部 。 


应 用 数据 


添加 SSL 


部 


图 7-2 SSL 记录 协议 操作 流程 图 


2. SSL 握手 协议 


SSL 握手 协议 是 对 SSL 会 话 状态 进行 维护 ,为 通信 双方 建立 安全 的 传输 通道 , 它 是 
SSL 协议 中 最 复杂 的 部 分 。 

当 SSL 客户 端 和 服务 器 首次 通信 时 ,双方 通过 握手 协议 ,协商 通信 协议 的 版 本 号 .选择 
密码 算法 .互相 认证 身份 (可 选 ) ,并 使 用 公 钥 加 密 技术 通过 一 系列 的 交换 消息 在 客户 端 和 服 
务 器 之 间 生 成 共享 的 秘密 。 双 方 根据 这 个 秘密 信息 产生 数据 加 密 算法 和 Hash 算法 的 参 

握手 协议 在 应 用 层 数据 传输 之 前 进行 ,包含 一 系列 服务 器 与 客户 端的 报 文 交换 ,这 些 报 
文 都 含有 3 个 字段 , 即 消息 类 型 (1B) ,消息 长 度 (3B) 和 消息 内 容 ( 不 少 于 1B) 。 


第 7 章 ÆT OpenSSL 的 安全 Web 服务 器 程序 


图 7-3 描述 了 客户 端 和 服务 器 建立 连接 时 的 报 文 交换 过 程 ,整个 交换 过 程 可 以 分 为 以 


下 4 个 阶段 。 


(1) 发 起 阶段 


时 间 


客户 端 


client_hello 
[| 


certificate _ _ —- - 
[^ server key exchange... 


[^ T certificate request _ — — 


| 一 一 二 


server. hello done 


F---. certificate 


client key. exchange SEN 


F - — certificate verify 


change. cipher. spec 
finished 


change cipher. spec 


iet | 


服务 器 端 


注 : 虚 箭头 表示 可 选 
消息 或 者 与 特定 情况 
相关 的 消息 类 型 


图 7-3 SSL 握手 协议 工作 过 程 示意 图 


客户 端 发 起 client hello 类 型 的 连接 请 求 ,其 中 包含 的 参数 有 客户 端 所 支持 的 SSL 协 
议 的 最 高 版 本 号 、 随 机 码 ,会话 ID、 密 码 套件 (cipher suite, 包 括 密 钥 交换 算法 和 加 密 、 认 证 
算法 ) 及 压缩 算法 等 ,发 出 client. hello 消息 之 后 ,客户 端 等 待 服务 器 的 回应 。 服 务 器 反馈 
server_hello 类 型 的 消息 ,其 中 版 本 字段 是 客户 端 和 服务 器 都 支持 的 最 高 版 本 号 ,另外 还 有 
一 个 与 客户 端 相互 独立 的 随机 码 , 同 时 服务 器 还 从 客户 端 所 提供 的 密码 套件 中 确定 后 面 所 
使 用 的 密 钥 交换 算法 、 加 密 /认证 算法 和 压缩 算法 。 

(2) 服务 器 认证 和 密 钥 交换 

服务 器 用 certificate 消息 向 客户 端 发 送 自己 的 证 书 , 根 据 密 钥 交换 算法 的 不 同 ,server_ 
key_exchange 消息 包含 不 同 算法 所 需 参 数 。 如 果 不 允 许 匿名 的 客户 端 , 则 服务 器 发 送 
certificate request 消息 ,要求 客 户 端 提供 证 书 。 这 一 阶段 的 最 后 消息 是 server_done, 这 条 
消息 表明 服务 器 的 相关 报 文 已 经 发 送 完毕 , 接 下 来 等 待 客户 端的 回应 。 

(3) 客户 端 认证 和 密 钥 交换 

收 到 服务 器 server done 类 型 的 消息 以 后 ,客户 端 需要 验证 服务 器 提供 的 证 书 是 合法 
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的 ,并 且 server_hello 所 包含 的 参数 是 可 行 的 。 如 果 服 务 器 需要 客户 端 提供 证 书 的 话 , 客 户 
端 会 用 certificate 消息 向 服务 器 发 送 证 书 。 在 client_key_exchange 消息 中 ,根据 协商 所 确 
定 的 算法 ,客户 端 向 服务 器 发 送 相应 的 参数 信息 。 

(4) 结束 阶段 

客户 端 和 服务 器 分 别 向 对 方 发 送 change cipher spec 和 finished 类 型 的 消息 ,至 此 握 
手 的 4 个 阶段 全 部 结束 ,双方 后 续 的 通信 全 部 采用 协商 确定 的 加 密 /认证 算法 和 密 钥 进行 。 


3. SSL 修改 密 文 规约 协议 


修改 密 文 规约 协议 工作 在 SSL 记录 协议 之 上 ,是 SSL 协议 集中 最 简单 的 , 它 只 包含 一 
种 报 文 格式 , 报 文 内 容 只 有 一 个 字 节 ,其 值 为 1, 用 于 通知 对 方 消息 发 出 后 发 送 的 报 文 将 采 
用 握手 协议 中 协商 好 的 算法 、 密 钥 等 进行 。 


4. SSL 警告 协议 


当 通 信 过 程 中 出 现 错误 或 异常 情况 时 给 出 警告 或 者 终止 连接 ,根据 错误 的 严重 程度 ， 
Alert 消息 分 为 两 种 类 型 : warning 和 fatal, 其 中 如 果 出 现 fatal 类 型 的 消息 将 立即 关闭 


7.2.2 OpenSSL 库 


OpenSSL 库 最 早 发 布 于 1998 年 ,其 前 身 是 Eric Young 和 Tim Hudson 开发 的 SSLeay 
库 , 目 前 最 新 的 版 本 是 0. 9. 8k, OpenSSL 库 提 供 了 完全 的 、 免 费 的 SSL 协议 实现 ,支持 
SSL2.0.SSL3.0 以 及 TSL1.0 等 版 本 ,并 且 能 工作 于 大 部 分 主流 的 系统 平台 上 ,如 UNIX, 
Linux 和 Windows 等 。OpenSSL 库 支 持 最 常用 的 对 称 加 密 算法 、 公 钥 算 法 和 消息 摘要 算法 
等 ,提供 了 命令 行 接口 和 编程 的 API 接口 。 


1. Linux 环境 中 OpenSSL 库 的 安装 


从 官方 网 站 http://www. openssl. org/ 上 下 载 OpenSSL 源 代码 (openssl-0. 9. 8k. tar. gz) 。 
COD 将 源 代码 包 解 压缩 (代码 如 下 ) 


# tar zxvf cpenss1- 0.9.8k.tar.gz 

(2) 设置 安装 目录 并 开始 安装 (代码 如 下 ) 

# cd apenssl- 0.9.8k 

# ./ocnfig--prefix= /usr/local/apenssl 

# make 

* make install 

2. OpenSSL 命令 简介 

(D 指令 genrsa 用 于 生成 RSA 私有 密 钥 ,其 使 用 格式 如 下 : 


cpenss1 genrsa[- at filename] [- passout arg] [- des] [- des3] [- idea] [- £4] [- 3] [- rnd file (s)] [mnbits] 
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指令 genrsa 选项 内 容 的 意义 如 下 : 

a. -out filename: 私有 密 钥 输 入 文件 名 ,默认 为 标准 输出 。 

b. -passout arg: 用 于 输出 保护 key 文件 的 密码 。 

c. -des|-des3|-idea : 加 密 的 密 钥 的 加 密 算 法 ,一 般 会 要 输入 保护 密码 ,如 果 这 3 个 参 
数 中 一 个 也 没 set, 密 钥 将 不 被 加 密 。 

d. -F4|-3: 使 用 的 公共 组 件 , 一 种 是 3, 一 种 是 FA, 

e. -rand file(s); 产生 key 的 时 候 用 过 seed 的 文件 ,可 以 把 多 个 文件 用 冒号 分 开 一 起 
做 seed。 

f. numbits; 指明 产生 的 参数 的 长 度 , 必 须 是 本 指令 的 最 后 一 个 参数 。 如 果 没 有 指明 ， 
则 产生 512bit 长 的 参数 。 

(2) 指令 req 用 来 创建 和 处 理 PKCS # 10 格式 的 证 书 或 者 建立 自 签名 证 书 ,其 使 用 格 
RUF: 


openssl zeq[- inform PEM] DER] [- cutform EEM| DER] [- in £i leneme] [- passin arg] 

[- at filename] [- passout arg] [- text] [- noout:] [- verify] [- modulus] [- new] [~ rard file(s) ] [- newkey rsa:bits] [- 

exiey da:file] [- rodes] [ key filerene] [- keyform FM| IER] [- keyout filename] [- (rcb| shal |r? |mk2]] [- ornfig 

filereme] [- 2509] [- days n] [- asnl- klud] [- newhdr] [- extensions section] [- rexts section] 

a. -inform DER| PEM: 指定 输入 的 格式 是 DEM 还 是 DER, DER 格式 采用 ASNI 的 
DER 标准 格式 。 一 般 用 的 都 是 PEM 格式 , 即 为 base64 编码 格式 。PEM 格式 的 第 一 行 和 
最 后 一 行 指明 内 容 , 中 间 就 是 经 过 编码 的 内 容 。 

b. -outform DER| PEM: 与 inform 类 似 , 指 定 输出 格式 是 PEM 还 是 DER, 

c. -in filename : 要 处 理 的 CSR 文件 的 名 称 , 当 -new 和 -newkey 等 两 个 option 没有 被 
set, 本 option 才 有 效 。 

d. -out filename; 要 输出 的 文件 名 。 

e, -text: 将 CSR 文件 中 的 内 容 以 可 读 方式 打印 出 来 。 

f. -noout: 不 打印 CSR 文件 的 编码 版 本 信息 。 

g. -modulus: 将 CSR 中 包含 的 公共 密 钥 的 系数 打印 出 来 。 

h. -verify: 检验 请 求 文件 里 的 签名 信息 。 

i. -new: 产生 一 个 新 的 CSR ,要求 用 户 输入 创建 CSR 的 一 些 必要 的 信息 。 需 要 的 信息 
定义 在 config 文件 中 。 如 果 -key 没有 被 set, 则 将 根据 config 文件 中 的 信息 先 产生 一 对 新 
的 RSA 密 钥 。 

j. -rand file(s) : 产生 key 的 时 候 用 过 seed 的 文件 ,可 以 把 多 个 文件 用 冒号 分 开 一 起 做 
seed, 

k. -newkey arg: 同时 生成 新 的 私有 密 钥 文件 和 CSR 文件 ,本 option 是 带 参数 的 。 如 
果 是 产生 RSA 的 私有 密 钥 文件 ,参数 是 一 个 数字 ,指明 私有 密 钥 bit 的 长 度 ;如 果 是 产生 
DSA 的 私有 密 钥 文 件 ,参数 是 DSA 密 钥 参数 文件 的 文件 名 。 

l. -key filename: 参数 filename 指明 私有 密 钥 的 文件 名 ,允许 的 格式 是 PKCS £8. 

m. -keyform DER| PEM: 指定 输入 的 私有 密 钥 文 件 的 格式 是 DEM 还 是 DER, DER 
格式 采用 ASN1 的 DER 标准 格式 。 一 般 多 用 PEM 格式 。 

n. days n; 如 果 -x509 被 设 定 , 则 该 选项 的 参数 指定 CA 给 第 三 方 签证 书 的 有 效 期 , 默 
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认 是 30 天 。 
G) 指令 x509 是 一 个 功能 很 丰富 的 证 书 处 理工 具 。 可 以 用 来 显示 证 书 的 内 容 ,转换 其 
格式 ,给 CSR 签名 等 ,其 具体 格式 如 下 : 


cpenss1 x509[- inform LER] FEM| NET] [- cut-form TER] FEM| NET] [~ keyform LER| FEM] [- CAform TER| FEM] 
[-Ceyfom TER| EM) [~ in £ilenene] [- cut filerare] [ serial] [hash] - subject] [- issuer] 
[- negt tian] [- emi] [- startete] [- endtate] [- purpose] [- dates] [- modulus] 
[= fingerprint] [- alias] [- nout] [ trustout] [- clrtrust] [- clrreject] [- aaHtrust arg] 
[adHieject a] [- setalias arg] [- cays arg] [- sigrley £ilerene] [- x509toreq [- req] 
[- G. filene] [- Akey filename] [- Qcreateserial] [- CAserial filereme] [- text] [- C] [- m2| - nd5| - shal | - mi] 
[- clrext] [- extfile filename] [- extensions secticn] 
a. -inform DER| PEM| NET: 指定 输入 文件 的 格式 。 
b. -outform DER|PEM|NET: 指定 输出 文件 的 格式 。 
c. -in filename: 指定 输入 文件 名 。 
d. -out filename; 指定 输出 文件 名 。 
e. -md2|-md5 |-shal |-mdc2; 指定 使 用 的 哈 希 算法 ,默认 的 是 MD5 与 打印 有 关 的 
option, 
Í. -text: 用 文本 方式 详细 打印 该 证 书 的 所 有 细节 。 
g. -noout: 不 打印 请 求 的 编码 版 本 信息 。 
h. -modulus: 打印 公共 密 钥 的 系数 值 
i. -serial; 打印 证 书 的 序列 号 。 
j. -hash: 把 证 书 拥有 者 名 称 的 哈 希 值 打 印 出 来 。 
k. -subject: 打印 证 书 拥有 者 的 名 字 。 
l. -issuer: 打印 证 书 颁发 者 名 字 。 
m. -nameopt option; 指定 用 什么 格式 打印 输出 。 
n. -email: 如 果 有 ,打印 证 书 申请 者 的 email 地 址 。 
o. -startdate: 打印 证 书 的 起 始 有 效 时间 。 
p. -enddate: 打印 证 书 的 到 期 时 间 。 
q. -dates: 把 以 上 两 个 option 都 打印 出 来 。 
r. -fingerprint: 打印 DER 格式 的 证 书 的 DER 版 本 信息 。 
s. -C: JH C 代码 风格 打印 结果 。 
t. -trustout; 打印 可 以 信任 的 证 书 。 
u. -setalias arg: 设置 证 书 别名 。 
. alias: 打印 证 书 别名 。 
w. -clrtrust: 清除 证 书 附加 项 里 所 有 有 关 用 途 人 允许 的 内 容 。 
x. -purpose: 打印 证 书 附 加 项 里 所 有 有 关 用 途 人 允许 和 用 途 禁 止 的 内 容 。 


7.2.3 相关 数据 结构 分 析 


BIO 是 Openssl 库 中 重要 的 数据 结构 。 无 论 即 将 建立 的 Openssl 连接 安全 与 否 ， 
Openssl 都 使 用 BIO 抽象 库 (bio. hb) 来 处 理 包括 文 件 和 套 接 字 在 内 的 各 种 类 型 的 通信 。 一 
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个 BIO 对 象 就 是 一 个 1/O 接口 的 抽象 , 它 隐藏 了 对 于 一 个 应 用 的 许多 底层 1/O 操作 的 细节 
工作 。 如 果 一 个 应 用 使 用 BIO 来 进行 /O 操作 , 它 可 以 透明 地 处 理 SSL 连接 、 加 密 连接 和 


文件 传输 连接 。 


BIO 分 为 两 种 类 型 ,一 种 是 Source/Sink 类 型 ,一 种 是 Filter 类 型 。 前 者 代表 数据 源 或 
数据 目标 ,例如 套 接 字 BIO 和 文件 BIO。 后 者 的 目的 是 把 数据 从 一 个 BIO 转换 到 另外 一 个 
BIO 或 应 用 接口 ,在 转换 过 程 中 ,这 些 数 据 可 以 不 经 过 修改 就 进行 转换 。 例 如 在 加 密 BIO 
中 ,如 果 进行 写 操作 ,数据 就 会 被 加 密 ;如 果 是 读 操作 ,数据 就 会 被 解密 。 


1. BIO 结构 


typedef struct bio st BIO; 


struct bio st 
t 
BIO METHOD* method; 


//bio, mode, arp, argi, argl, ret 


//BI0 方 法 结构 ,决定 BIO 类 型 和 行为 的 重要 参数 


long (* callback) (struct bio st* ,int,const char* „int, long,long); /BIO 回调 函数 
char* db arg; // 回 调 函 数 的 第 一 个 参数 

int init; // 初 始 化 标识 ,已 初始 化 则 为 1 

int shutdown; // 开 关 标识 ,关闭 为 1 

int flags; //extra storage 

int retry reason; 

int num 

void* ptr; 


struct bio st* next bio; 
struct bio st* prev bio; 
int references; 

unsigned long num read; 
unsigned long num write; 
CRYPIO EX DATA ex data; 
Nu 


2. 常用 的 BIO 相关 函数 


//Filter 型 Hp 所 用 ,代表 BIO 链 的 下 一 节 
//Filter 型 BIYO 所 用 ,代表 BIO 链 的 上 一 节 


// 读 出 的 数据 长 度 
// 写 人 的 数据 长 度 


在 BIO 的 所 用 成 员 中 ,method 可 以 说 是 最 关键 的 一 个 成 员 , 它 决定 了 BIO 的 类 型 ,可 
以 看 到 ,在 声明 一 个 新 的 BIO 结构 时 ,总 是 使 用 下 面 的 声明 : 


BIO* BIO new(BIO METHOD* type); 


从 源 代码 可 以 看 出 ,BIO_new 函数 除了 给 一 些 初始 变量 赋值 外 ,主要 就 是 把 type 中 的 
各 个 变量 赋值 给 BIO 结构 中 的 method 成 员 。 
一 般 来 说 ,上 述 type 参数 是 以 一 个 类 型 生成 函数 的 形式 提供 的 ,如 生成 一 个 mem 型 的 


BIO 结构 ,其 实现 代码 如 下 : 


BIO* mem- BIO new(BIO s mem()); 


两 种 BIO 的 常用 相关 函数 如 下 。 
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(1) source/sink 型 

a. BIO s accept ; 是 一 个 封装 了 类 似 TCP/IP socket Accept 规则 的 接口 ,并 且 使 
TCP/IP 操作 对 于 BIO 接口 是 透明 的 。 

b. BIO_s_bio(): 封装 了 一 个 BIO 对 ,数据 从 其 中 一 个 BIO 写 入 ,从 另外 一 个 BIO 

c. BIO s connectO ; 是 一 个 封装 了 类 似 TCP/IP socket Connect 规则 的 接口 ,并且 使 
TCP/IP 操作 对 于 BIO 接口 是 透明 的 。 

d. BIO_s_fd(): 是 一 个 封装 了 文件 描述 符 的 BIO 接口 ,提供 类 似 文件 读 写 操作 的 
功能 。 

e. BIO_s_file() ; 封装 了 标准 的 文件 接口 的 BIO, 包 括 标准 的 输入 输出 设备 如 stdin 等 。 

f. BIO s memO: 封装 了 内 存 操 作 的 BIO 接口 ,包括 对 内 存 的 读 写 操作 。 

g. BIO s nullO ; 返回 空 的 sink 型 BIO 接口 , 写 和 这 种 接口 的 所 有 数据 都 被 丢弃 , 读 
的 时 候 总 是 返回 EOF 。 

h. BIO s socketO : 封装 了 socket 接口 的 BIO 类 型 。 

(2) filter 型 

a. BIO_f_base64(): 封装 了 base64 编码 方法 的 BIO, 写 的 时 候 进 行 编码 , 读 的 时 候 
解码 。 

b. BIO f bufferO ; 封装 了 缓冲 区 操作 的 BIO, 写 人 该 接口 的 数据 一 般 是 准备 传人 下 
一 个 BIO 接口 的 ,从 该 接口 读 出 的 数据 一 般 也 是 从 另 一 个 BIO 传 过 来 的 。 

c. BIO f cipherO : 封装 了 加 解密 方法 的 BIO, 写 的 时 候 加 密 , 读 的 时 候 解密 。 

d. BIO_f_md(): 封装 了 信息 摘要 方法 的 BIO, 通 过 该 接口 读 写 的 数据 都 是 经 过 摘 
要 的 。 

e. BIO f nullO : 一 个 不 作 任 何事 情 的 BIO, 对 它 的 操作 都 被 简单 地 传 到 下 一 个 BIO 
去 了 ,相当 于 不 存在 。 

f. BIO f sslO : 封装 了 openssl 的 SSL 协议 的 BIO 类 型 , 即 为 SSL 协议 增加 了 一 些 
BIO 操作 方法 。 

上 述 各 种 类 型 的 函数 正 是 构成 BIO 强大 功能 的 基本 单元 ,所 有 这 些 源 文件 ,基本 上 都 
包含 于 /crypto/bio/ 目 录 下 扩展 名 为 . c 的 同名 文件 中 。 


3. 通过 BIO 结构 进行 VO 操作 
BIO 的 基本 读 、 写 操作 函数 主要 有 4 个 ,它们 的 定义 如 下 (openssl/bio. h) : 


int BIO read(BIO* b, void* buf, int len); 

int BIO gets (BIO b,char* buf, int size); 

int BIO write(BIO* b, oonst void* buf, int len); 

int BIO puts BIO b,const char * buf); 

(1) BIO read 函数 

从 BIO 接口 中 读 出 指定 数量 字 节 len 的 数据 并 存储 到 buf 中 。 成 功 就 返回 真正 读 出 的 
数据 的 长 度 , 失 败 返回 0 或 一 1, 如 果 该 BIO 没有 实现 该 函数 则 返回 一 2。 

(2) BIO_gets 函数 
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该 函数 从 BIO 中 读 取 一 行 长 度 最 大 为 size 的 数据 。 通 常情 况 下 ,该 函数 会 以 最 大 长 度 
限制 读 取 一 行 数据 ,但 是 也 有 例外 ,比如 digest 型 的 BIO, 该 函数 会 计算 并 返回 整个 digest 
信息 。 此 外 ,有 些 BIO 可 能 不 支持 这 个 函数 。 成 功 就 返回 真正 读 出 的 数据 的 长 度 ,失败 返 
回 0 或 一 1, 如 果 该 BIO 没有 实现 该 函数 则 返回 一 2。 需 要 注意 的 是 ,如 果 相应 的 BIO 不 支 
持 这 个 函数 , 则 对 该 函数 的 调用 可 能 导致 HIO 链 中 自动 增加 一 个 buffer 型 的 BIO。 

(3) BIO. write 函数 

f& BIO 中 写 入 长度 为 len 的 数据 。 成 功 就 返回 真正 写 入 的 数据 的 长 度 ,失败 返回 0 或 
一 1, 如 果 该 BIO 中 没有 实现 该 函数 则 返回 一 2。 

(4) BIO puts 函数 

fk BIO 中 写 和 一 个 以 NULL 为 结束 符 的 字符 串 ,成 功 就 返回 真正 写 入 的 数据 的 长 度 ， 
失败 返回 0 或 一 1, 如 果 该 BIO 中 没有 实现 该 函数 则 返回 一 2。 

另外 ,除了 这 4 个 基本 的 L/O 操作 函数 以 外 ,还 有 一 个 比较 重要 的 T/O 函数 。 该 函数 
也 是 BIO_ctrl 的 宏 定义 函数 ,其 定义 如 下 。 


# define BIO flush(b) (int)BIO ctrl(b,BIO CIRL FLUSH, 0, NULL) 


该 函数 用 来 将 BIO 内 部 缓冲 区 的 数据 一 次 性 都 写 出 去 ,有 些 时 候 , 也 用 于 根据 EOF 查 
看 是 否 还 有 数据 可 以 写 。 调 用 成 功 时 ,该 函数 返回 1; 失 败 时 ,返回 0 或 一 1。 之 所 以 失败 时 
返回 0 或 者 一 1, 是 为 了 标志 该 操作 是 否 需要 稍 后 以 与 BIO. write O RROA I] 09 Jy SCC AX 
这 时 ,应 该 调用 BIO should retry OrRA&. 

需要 注意 的 是 ,返回 值 为 0 或 一 1 时 并 不 一 定 就 是 发 生 了 错误 。 在 非 阻 塞 型 的 source/ 
sink 型 或 其 他 一 些 特定 类 型 的 BIO 中 ,这 仅仅 代表 目前 没有 数据 可 以 读 取 , 需 要 稍 后 再 进 
行 该 操作 。 

阻塞 类 型 的 socket 使 用 如 select, poll, equivalent 等 函数 检测 BIO 中 是 否 存在 需要 被 
read() 函 数 读 取 的 有 效 数据 ,但 不 建议 在 阻塞 型 的 接口 中 使 用 这 些 技术 ,因为 这 种 情况 下 如 
果 调 用 BIO_read() 函 数 会 导致 在 底层 的 1/0 中 多 次 调用 read() 函 数 , 从 而 导致 端口 阻塞 。 
这 种 情况 下 ,select( 或 equivalent) 应 该 和 非 阻 塞 型 的 1/O 一 起 使 用 ,可 以 在 失败 之 后 重新 读 
取 该 7O, 而 不 使 端口 阻塞 。 


7.3 ”实例 编程 练习 


7.3.1 编程 练习 要 求 


在 Linux 平 台 上 利用 OpenSSL 实现 安全 的 Web Server 的 具体 要 求 如 下 : 

(D 在 理解 HTTPS 及 SSL 的 工作 原理 的 基础 上 ,实现 安全 的 Web Server。 

(2) Server 能 够 并 发 处 理 多 个 请 求 ,要 求 至 少 能 支持 Get 命令 。 可 以 增强 Web Server 
的 功能 ,如 支持 Head, Post 以 及 Delete 命令 等 。 

(3) 编写 必要 的 客户 端 测试 程序 ,用 于 发 送 HTTPS 请 求 并 显示 返回 结果 ,也 可 以 使 用 
一 般 的 Web 浏览 器 测试 。 

下 面 给 出 示例 程序 的 相关 内 容 , 供 读者 参考 。 本 程序 中 ,服务 器 端 为 命令 行程 序 , 客 户 
端 为 Linux 下 普通 的 Web 浏览 器 ,这 里 使 用 的 是 FireFox 浏览 器 。 服 务 器 端的 IP 地 址 为 
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192. 168. 1. 91 ,开放 的 端口 为 22222 。 
程序 执行 的 流程 如 下 。 
服务 器 端 : . /Server 


[root& localhost share]# ./Server 


尖 尖 关 关 闪闪 关 关 关 关 关 关 关 Server Starting  Jeedeeceecedeedr 


此 时 Web 服务 器 已 经 开启 ,等 待 客户 端的 连接 请 求 。 

在 客户 端 , 即 浏览 器 中 ,键入 服务 器 的 IP 地 址 和 端口 ,https://192. 168. 1. 91:22222， 
请 求 返 回 服务 器 端 默认 的 主页 。 

服务 器 端 显示 从 客户 端 发 送 请 求 到 成 功 将 所 请 求 的 文件 发 送 回 客户 端 之 间 所 发 生 事件 
的 日 志 记 录 ( 如 下 所 示 ) 。 


[root8 localhost share]# ./Server 

关 关 关 关 关 关 关 关 关 关 关 关 关 Server Starting  JOe|dee]daedaegaeer 
IP:192.168.1.100 connecting to socket:872 
/index.html 

Closing socket:872 

1P:192.168.1.100 connecting to socket:776 
index. files/winpcap.css 

Closing socket:776 

IP:192.168.1.100 connecting to socket:934 
1P:192.168.1.100 connecting to socket:796 
IP:192.168.1.100 connecting to socket:752 
IP:192.168.1.100 connecting to socket:734 
1P:192.168.1.100 connecting to socket:712 
index. files/New.gif 

Closing socket.:934 
/index.files/curve.gif 

Closing socket:796 

/ index. £iles/airpcap.gif 

Closing socket:752 

/index.files/cace logo.gif 

Closing socket: 734 

index. files/curvedown.gif 

Closing socket:712 


此 时 ,客户 端 已 成 功 收 到 并 显示 所 请 求 的 网 页 内 容 ( 如 图 7-4 所 示 ) 。 
至 此 ,服务 器 端 成 功 完 成 一 次 基于 HTTPS 的 Web 响应 。 
7.3.2 编程 训练 设计 与 分 析 


程序 流程 如 图 7-5 所 示 。 
程序 可 以 分 为 两 部 分 : 初始 化 模块 , 即 通 过 编译 及 函数 调用 对 OPENSSL 库 进行 初始 
化 并 且 创 建 上 下 文 环境 ; Web 服务 模块 , 即 基于 SSL 机 制 利 用 OPENSSL 库 函 数 实现 
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图 7-4 客户 端 截图 


初始 化 OPENSSL 库 


监听 用 户 请 求 ， 提 供 Web 服 务 


(人 结束 HTTPs 服 务 ) 
7-5 程序 整体 流程 图 


HTTPS 的 服务 。 
1. 初始 化 模块 


在 开启 HTTPS 服务 之 前 ,服务 器 端 只 需要 初始 化 OPENSSL 库 和 创建 上 下 文 环境 。 
在 此 过 程 中 ,会 用 到 如 下 函数 : 


SSL library init(); // 加 载 FENSSL 将 会 用 到 的 算法 

SSL load error strings); // 加 载 错 误 字符 串 

SSL METHOD * meth; 

SSL CIX* ctx; //sst, CI 对 象 

meth-SSIy23 method); // 相 应 的 ss 结构 使 用 的 是 sr2.0、3.0, 但 可 以 回 到 ssr2.o 
ctx-SSL CIX new(meth) ; // 创 建 一 个 上 下 文 环境 

SSL CIX use certificate chain file(ctx, "server.pem"); — // 指 定 所 使 用 的 证 书 文件 

SSL CTX set default passwd cb(ctx, password db); // 设 置 密码 回调 函数 
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SSL CIX use PrivateKey file(ctx, "server.pem", SSL FIIETYPE PEM)); // 加 载 私 钥 文件 
SSL CIX load verify locations (ctx, "root.pem", 0); // 加 载 受 信任 的 a 证 书 

loed dh params (ctx, "dh1024.pem") ; 

// 当 使 用 RSR 算 法 鉴别 的 时 候 , 会 有 一 个 临时 的 三 密 钥 磋商 发 生 。 这 样 会 话 数据 将 用 

// 这 个 临时 的 密 钥 加 密 ,而 证 书 中 的 密 钥 作为 签名 


2. Web 服务 模块 
Web 服务 模块 是 本 程序 的 核心 部 分 ,其 执行 流程 如 图 7-6 Bron o 


开启 HTTPS 服务 


! 连接 请 3 新 建 SSL 对象 并 把 SSL 对象 
创建 监听 套 接 字 SIGNE 绑 定 到 socket 类 型 的 BIO 上 
连 SSL 接 受 请 求 
1 
SSL IUE 
接收 客户 端 连接 DUK 
开启 套 接 字 监 听 ! 生成 并 将 头 部 返回 客户 端 
创建 客户 线程 1 
1 取得 并 发 送 所 请 求 的 文件 


等 待 监听 结束 事件 


创建 监听 线程 


关闭 SSL 连接， 销毁 SSL 对 象 


1 


! 
在 日 志 显示 启动 消息 (CED) EP RER 


— 


图 7-6 HTTPS 实现 流程 图 


Web 服务 模块 在 类 CHttpProtocol 中 实现 。 该 类 中 封装 了 HTTPS 中 与 本 程序 相关 的 
操作 ,主要 包括 监听 线程 函数 以 及 客户 端 线程 函数 中 需要 调用 的 子 函 数 的 定义 及 实现 。 其 
中 ,比较 核心 的 子 函 数 包括 SSL 分 析 请 求 ,将 响应 头 部 返回 给 客户 端 以 及 将 文件 发 送 回 客 
户 端 等 。 

下 面 给 出 该 类 定义 中 的 部 分 代码 : 


class CHttpProtocol 
t 


GittpProtocol (void) ; 

^ GHttpProtoool (void) ; 

SSL CIX* ctx; s/sa EFX 
charx initialize ctx(); /初始 化 cx 
char* load dh params (SSL CIX* ctx, char* file); // 加 载 cr 参数 
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int TepListen(); //TcP 监 听 函 数 
void StopHttpSrv (); // 停 止 HTP 服务 
bool StartHttpSrv() ; // 开 始 arre JR 3 
static void* ListenThread (LPVOID parem) ; /监听 线程 
static void* ClientThread (LPVOID param) ; // 客 户 线程 
// 接 收 ErrPS 请 求 
bool SSLRecvRequest (SSL* ssl,BIO* io, IPBYTE pBuf, DWORD dwBufSize); 
int Analyze (FFEQUEST peq, LPBYTE pBuf) ; // 分 析 irre ito 
bool SSLSendHeader (FREQUEST pReq, BIO* io); // 发 送 HETPS 头 
bool SSLSendFile (REQUEST peq, BIO* io); // 由 SSL 通 道 发 送 文件 


bool SSLSendBuffer (PREQUEST pReq, IPBYTE pBuf, DWORD dwBufSize); 


J: 

下 面 对 本 示例 程序 中 的 模块 依次 进行 介绍 。 

(1) 监听 线程 

监听 线程 用 于 监听 Web 服务 连接 请 求 。 

使 用 pthread_create() 函 数 创建 监听 线程 ,代码 如 下 : 


pthread t listen tid; 

pthread create(&listen tid, NULL, &Li ster/Thread, this); 

其 中 传递 给 监听 线程 函数 的 参数 是 调用 该 成 员 函 数 的 类 对 象 指针 ,监听 函数 可 以 由 这 
个 类 对 象 指针 调用 其 需要 的 信息 ,如 套 接 字 句柄 ,SSL 上 下 文 等 。 

在 监听 线程 函数 中 ,服务 器 端 循环 等 待 客户 端的 连接 请 求 , 若 有 新 的 请 求 到 达 , 服 务 器 
端 将 新 创建 一 个 客户 端 线程 去 处 理 该 客户 端的 请 求 。 


void* CHttpProtoool: :ListenThread (LPVOID param) 
pe 
CHttpProtocol * pHttpProtocol- (CHttpProtocol * )param; 
while() // 循 环 等 待 ,如 有 客户 连接 请 求 , 则 接受 客户 机 连接 要 求 
t 
nIen- sizeof (SockAddr) ; 
ERF 58 FE BE iR [BUE I C. 822 B £ P: DLE HEC 812 S 
socketclient= accept (pHitpProtoool-»m listenSodet, (LESOCKALTR) &Sockdchir, &nlen); 
if (socketClient-- INVALID SOCKET) 
break; 
// 创 建 client 进 程 ,处 理 request 
pthread create(&client tid,NULL, asClientThread,FRea) ; 


4 


(2) 客户 端 线程 
客户 端 线程 用 于 处 理 接收 到 的 客户 端 请 求 。 
客户 端 线程 由 监听 线程 在 accept O 函数 调用 成 功 后 创建 。 在 客户 端 线 程 函 数 中 ,首先 
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将 根据 之 前 初始 化 的 上 下 文 创建 出 来 的 SSL 对 象 绑 定 在 一 个 socket 类 型 的 BIO. 上 面 , 然 
后 调用 SSL_accept() 函数 ,与 客户 端 进行 握手 。 
下 面 的 代码 摘自 客户 端 线程 函数 : 


void* CHttpProtoool : :ClientThread (LPVOID param) 
t 


PREQUEST pReq- (PREQUEST) param; 

GHttpProtocol * pHttpProtoool- (CHttpProtocol * )pReq-» pHttpoProtocol ; 
SOCKET s= rReq-» Socket; 

sbio-BIO new socket(s, BIO NOCIOSE); // 创 建 一 个 socket 类 型 的 BIO 对 象 
ssl-SSL new (FRedq-> ssl ctx); // 创 建 一 个 ss 对 象 

SSL set bio(ssl, sbio, sbio); // 把 ss 对 象 绑 定 到 socket 类 型 的 BO 上 


// 连 接客 户 端 ,在 SSL accept 过 程 中 ,将 会 占用 很 大 的 cu 

nRet-SSL accept (531); 

//rRet<=0 时 发 生 错误 

io-BIO new (BIO f buffer()); U EXE TIE ioo 
ssl bio-BIO new(BIO f ssl()); 

/封装 了 ss 协议 的 Bo 类 型 , 即 为 ssSL 协 议 增加 了 一 些 BIo 操 作 方法 

BIO set ssl(ssl bio, ssl, BIO CLOSE); 

// 把 ssl(ssSL 对 象 ) 封 装 在 ssl bio(ssL BIO 对 象 ) 中 

BIO push(io, ssl bio); 

// 把 ssl bio 封 装 在 一 个 缓冲 的 BIO 对 象 中 ,实现 对 ssL 连 接 的 缓冲 的 读 和 写 


/做 好 上 述 To 绑 定之 后 ,开始 接受 客户 端 请 求 
if (IpHttpProtocol-> SSLFecvRequest (ss1, io, buf, sizeof (buf) )) 
t 

// 处 理 错误 


} 
//HTIES 协 议 分析 
nRet- pHttpProtocol-» Analyze (FReg, buf); 
if (nRet) 
t 
// 处 理 错误 
} 
/| 生成 并 返回 头 部 
if(IpHttpProtoool-» SSLSendHeader (Peq, io) ) 
{ 
// 处 理 错误 
} 
BIO flush(io); 


// 向 client 传 送 数据 
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if (EReq-> rMethod- -METHOD GET) 
t 
if(IpHttpProtocol-» SSLSendEi le (Reg io)) 
{ 


// 处 理 错误 
) 

) 
// 析 构 操作 

) 

客户 端 线程 的 参数 定义 如 下 : 

typedef struct REQUEST 

{ 
SOCKET Socket; // 请 求 的 socket 
int method; // 请 求 的 使 用 方法 : ETÈ HEAD 
WRD deRecv; // 收 到 的 字 节 数 
WRD Send; // 发 送 的 字 节 数 
int hFile; // 请 求 连接 的 文件 
char szFileName[256]; /文件 的 相对 路 径 
char postfix[10]; // 存 储 扩展 名 
SSL CIX* ssl ctx; //SSL 上 下 文 


void* pHttpProtocol; /指向 类 cHttpProtocol 的 指针 


JEEQUEST, * PROQUEST; 


(3) 接受 客户 端 请 求 
接受 客户 端 请 求 的 工作 由 函数 SSLRecvRequest() 完 成 ,部 分 代码 如 下 : 


bool CHttpProtocol : :SSLRecvRequest (SSL* ssl,BIO* io, LPBYTE pBuf, DWORD dwBufSize) 
j 
memset (ouf, 0, BUFSIZZ); // 初 始 化 缓冲 区 
while(l) 
t 
r-BIO gets(io, buf, BUFSIZZ- 1); 
switch(SSL get error(ssl, r)) 
t 
case SSL ERFOR NONE: 
memcpy (&cBuf [length], buf, r); 
lengtht- r; 
break; 
default: 
break; 
H 
// 直 到 读 到 代表 HTTP 头 部 结束 的 空 行 
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if(Istram (buf, Nn") || !strarp (buf, n") ) 
break; 
+ 
// 添 加 结束 符 
puf [length]- 'N0'; 
retum true; 
k 


该 函数 首先 利用 BIO. gets O 函数 从 1/0 中 读 取 数 据 , 放 到 事先 分 配 好 的 缓冲 区 buf 
里 ,并 通过 对 换行 符 的 判断 以 确保 获得 完整 的 HTTPS 头 部 ,以 便 对 缓冲 区 中 的 HTTPS 请 
求 数据 报 进行 分 析 。 

(4) HTTPS 协议 解析 

下 面 代码 片段 摘自 SSL 请 求 分 析 函 数 ,由 客户 端 线程 函数 调用 : 


int CHttpProtocol::Analyze (FREQUEST FReqy IEBYTE puf) 
t 
// 分 析 接收 到 的 信息 
char szSeps[]- "Nn"; 
char* cgToken; 
/判断 request 的 method 
cploker= strtok((char* )pBuf, szSeps) ; // 缓 存 中 字符 串 分 解 为 一 组 标记 串 
if (Istram(cpToken, "GET")) //G=n és 
t 
Peg > rMethod= METHOD. GET; 
H 


stroy (cFeq-» szFileName, m strRootDir); 
if (strlen(gpToken)» 1) 
t 
strcat (cReq-» szFileName, cpToken); // 把 该 文件 名 添加 到 结尾 处 形成 路 径 
$ 
else 
t 
strcat (pReq-» szFileNeme, "/index.html") ; /车 无 文 件 名 , 则 默认 为 index.html 
} 
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该 函数 根据 HTTPS 协议 的 标准 请 求 格式 的 头 部 来 进行 分 解 与 分 析 , 获 取 请 求 的 命令 
以 及 请 求 的 文件 等 信息 。 服 务 器 根据 这 些 信息 ,将 相应 的 响应 及 文件 本 身 发 送 回 客户 端 。 

(5) 发 送 HTTPS 响应 

服务 器 端 会 首先 根据 客户 端 请 求 的 命令 和 文件 ,来 判断 命令 是 否 符合 标准 ,所 请 求 的 文 
件 是 否 存在 ,然后 组 成 一 个 响应 发 回 客户 端 。 人 们 通常 在 上 网 的 时 候 , 网 页 上 出 现 404 或 
400 等 错误 ,就 是 因为 这 一 步 请 求 的 文件 于 服务 器 上 不 存在 或 者 命令 错误 ,服务 器 就 会 发 送 
一 个 错误 的 响应 到 用 户 的 浏览 器 上 。 
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下 面 的 代码 摘自 服务 器 端的 响应 函数 ,该 函数 由 客户 端 线程 函数 调用 。 


bool CHttpProtocol : :SSLSendHeader (PREQUEST pReg, BIO* io) 
{ 


char curTime[50]; 
GetCurrentTime (curTime) ; 
/取得 文件 的 last-modified f [8] 
char last modified[60]- " "; 
GetlastModified(pReq-» hFile, (char* )last modified); 
// 取 得 文件 的 类 型 
char ContentType[50]=" "; 
GetContentType (pReg, (char* )ContentType) ; 
/组 成 完整 的 服务 器 响应 
sprintf ((char* )Header, "HTTP/1.1 $sVrWnDate: $s Vr VnServer: $sVrVnContent- Type: $3 VrVnContent- 
length: %dNrVnVrVn", 
HTTP STATUS CK, 


curTime, //Date 
"Villa Server 192.168.1.91", //Sexver"My Https Server" 
ContentType, //Content- Type 
length); //Content- length 
BIO flush(io); // 一 次 性 清空 缓冲 区 ,全 部 写 人 1/0 
retum true; 
) 
(6) 释放 相关 资源 
在 客户 端 线程 完成 请 求 之 后 ,需要 释放 相关 资源 ,代码 如 下 
SSL shutdown (ss1) ; /人 关闭 s£ 
SSL free(ssl); // 释 放 SSL 结 构 
SSL CTX free (ssl ctx); /释放 上 下 文 环境 
7.4 扩展 与 提高 


7.4.1 客户 端 认 证 


建立 SSL 连接 时 ,一 般 要 求 服务 器 提供 认证 证 书 ,由 客户 端 验 证 通过 才能 继续 建立 连 
接 , 客 户 端 一 般 并 不 被 要 求 提供 客户 端的 认证 证 书 ,本 Web 服务 器 没有 要 求 客户 端 提供 认 
证 证 书 。 作 为 扩展 ,可 以 为 服务 器 添加 客户 端 认 证 功能 , 即 进行 客户 端 和 服务 器 的 双向 
认证 。 

采用 双向 认证 方式 的 SSL 连接 , 既 要 求 服务 器 提供 认证 证 书 ,由 客户 端 验 证 ,同时 也 要 
求 客 户 端 提供 自己 的 认证 证 书 , 由 服务 器 进行 验证 。 

OpenSSL 提供 了 建立 双向 认证 SSL 连接 的 API, 只 需要 在 单 向 认证 的 基础 上 ,设置 要 
求 对 方 提供 证 书 的 属性 ,并 设置 系统 可 信 的 证 书 ,OpenSSL 提供 的 相关 API 如 下 。 
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CD 设置 可 信 CA 的 证 书 文件 (如 下 所 示 ) 
int SSL CIX load verify locations(SSL CTX* ctx, const char* cafile, ocnst char* cadir); 
(2) 设置 认证 模式 (如 下 所 示 ) 


int SSL CIX set verify(SSL CIX* ctx, int mode, 
int (* verify callback) (int, X509 STORE CIX* )); 

其 中 mode 参数 表示 认证 模式 , verify callback 提供 注册 认证 回调 函数 的 机 制 , 为 
NULL 时 使 用 OpenSSL 内 置 的 认证 函数 。 使 用 双向 认证 模式 需要 将 mode 的 值 置 为 SSL_ 
VERIFY PEER | SSL VERIFY FAIL IF NO PEER CERT, 

(3) 设置 可 信 证 书 链 深度 (如 下 所 示 ) 

void SSL CTX set verify depth(SSL CTX* ctx, int dept); 

如 果 需 要 验证 客户 端 , 则 在 服务 器 中 添加 如 下 代码 即 可 。 

SSL CTX load verify locations(ctx, FSA SERVER CA CERT/* 客户 证 书 的 根 CA /, NIL); 


SSL CTX set verify(ctx, SSL VERIFY FEER | SSL VERIFY FAIL IF NO FEER CERT, NULL); 
SSL CIX set verify depth(ctx, 1); 


7.4.2 基于 IPSec 的 安全 通信 


利用 SSL 可 以 保证 Web 浏览 器 和 Web 服务 器 间 的 安全 通信 ,利用 PGP(Pretty Good 
Privacy) 及 S/MIME(Secure/Multipurpose Internet Mail Extension) 可 以 实现 邮件 加 密 ,但 
是 这 些 安全 技术 都 只 能 用 于 局 部 业务 ,并 不 能 保证 TCP/IP 整体 上 的 安全 通信 ,因此 出 现 了 
能 够 使 企业 和 个 人 用 户 在 开放 的 Internet 上 通用 的 安全 协议 一 一 IPSec。 

IPSec 协议 是 IETF 于 1998 年 11 月 公布 的 IP 安全 标准 ,目前 IPSec 被 广泛 应 用 于 实 
现 端 到 端的 安全 虚拟 专用 网 和 安全 隧道 , 它 对 IPv4 是 可 选 的 ,对 于 IPv6 则 是 强制 必须 实 
施 的 ,是 唯一 一 种 可 为 任何 形式 的 Internet 通信 提供 安全 保障 的 协议 ,也 是 易于 扩展 的 、 完 
整 的 一 种 基础 网 络 安全 方案 。IPSec 协议 是 一 个 协议 族 , 它 包 括 验证 头 协议 (Authentication 
Header, AH) .封装 安全 载荷 协议 (Encapsulation Security Payload, ESP) #l Internet 密 钥 交 
换 协 议 (Internet Key Exchange,IKE) 等 。 


IPSec 体系 结构 
1. IPSec 体系 结构 | | 
ESP AH 
IPSec 提供 了 一 种 标准 、 健 壮 且 包容 广泛 的 
安全 机 制 ,可 以 为 IP 及 其 上 层 协议 提供 安全 保 E ape E) 
证 。 其 具体 保护 形式 有 : 数据 源 验证 、 无 连接 数 加 密 算法 认证 算法 
据 的 完整 性 验证 .数据 机 密 性 . 抗 重播 及 有 限 的 | ches | 
数据 流 机 密 性 保证 。IPSec 是 一 个 协议 族 , 其 结 i 
构 如 图 7-7 所 示 。 IKE qui 
ESP fll AH; ESP 是 插入 IP 数据 包 内 的 一 i 


个 协议 头 , 可 以 为 IP 提供 机 密 性 、 数 据 源 验证 、 


抗 重播 以 及 数据 完整 性 等 安全 服务 。AH 与 EU Se 安全 体系 结构 和 意图 
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ESP 类 似 , 但 它 不 提供 机 密 性 服务 。 

策略 : 目前 尚未 形成 标准 , 它 决定 两 个 实体 之 间 是 否 能 够 通信 以 及 如 何 通信 ,IPSec 策 
略 由 安全 策略 数据 库 (Security Policy Database SPD) 维 护 。 一 个 SPD 条 目 可 能 定义 了 下 
述 几 种 行为 之 一 : 丢弃 、 绕 过 及 应 用 。 对 那些 定义 了 应 用 行为 的 SPD 条 目 ,它们 均 会 指向 
一 个 或 一 串 安 全 关联 (Security Association. SA), SA 定义 了 对 一 个 特定 的 IP 包 作 IPSec 
处 理 对 应 的 各 种 安全 参数 ,包括 要 应 用 的 安全 协议 (ESP、.AH) ,算法 及 密 钥 、 密 钥 生 存 期 、 抗 
重播 窗口 等 。 

IKE: SA 可 以 手工 或 动态 建立 ,IKE 用 于 动态 建立 SA, 它 可 以 代表 IPSec 对 SA 进行 
协商 。 

(1) ESP 

ESP 是 属于 IPSec 的 一 种 协议 ,协议 号 为 50, 用 于 保护 IP 数据 包 的 机 密 性 、 数 据 的 完 
整 性 以 及 数据 源 的 身份 认证 ,也 负责 抵抗 重播 攻击 。ESP 用 一 个 加 密 器 来 提供 机 密 性 ,一 
个 身份 验证 器 来 保证 完整 性 。 对 于 发 送 的 数据 包 , 首 先进 行 加 密 处 理 ,然后 是 验证 处 理 ;对 
于 接收 的 数据 包 , 操 作 相反 。 应 用 ESP 时 ,在 IP 报头 之 后 ,要 保护 的 数据 之 前 插入 一 个 
ESP 头 ,之 后 插入 一 个 ESP Æ. ESP 保护 的 数据 包 的 封装 格式 如 图 7-8 所 示 。 


IP 头 (新 ) IP 头 ( 原 ) 
SPI SPI 
序列 号 序列 号 
初始 化 向 量 初始 化 向 量 
IP X (Bü) š 
w TCP £ TCP £: 
a 数据 数据 
填充 项 | 填充 项 长 度 | 下 一 个 头 填充 项 | 填充 项 长 度 | 下 一 个 头 
验证 数据 验证 数据 
(a) 隧道 模式 (b) 传输 模式 


图 7-8 ESP 报 文 格式 示意 图 


a， 安 全 参数 索引 (Security Parameter Index. SPD : 用 来 和 对 端的 安全 设备 同步 使 用 加 
密 算法 和 认证 算法 。 通 常 接收 端 使 用 元 组 二 SPI\ 目 标 主机 、 协 议 二 唯一 标识 所 使 用 的 SA 

b. 序列 号 : 单 向 递增 的 计数 器 ,用 来 抗 重播 攻击 。 

c. 初始 化 向 量 (Initialization Vector,IV): 这 是 一 个 可 选 的 32 位 字段 ,会 出 现 3 种 不 
同 的 情况 : 加 密 算 法 不 需要 IV 、 需 要 隐 式 的 IV 和 需要 显 式 的 IV. 

d. 填充 项 : 0 一 255 字 节 ,用 于 保证 边界 的 正确 性 。 某 些 加 密 算法 模式 对 加 密 数 据 长 度 
有 要 求 ; 即 使 没有 要 求 机 密 性 保证 , 仍 需 要 把 * 下 一 个 头 ” 字 有 段 靠 右 排 列 ; 同 时 ,这 项 技术 隐藏 
了 原始 数据 的 实际 长 度 。 

e. 填充 项 长 度 : 给 出 前 面 的 填充 项 的 长 度 , 置 0 时 表示 没有 填充 。 

f. 下 一 个 头 : 表明 数据 类 型 。 在 隧道 模式 下 该 值 为 4, 表示 IP-in-IP; 在 传输 模式 下 ,该 
值 表示 载荷 所 属 协议 的 类 型 ,例如 TCP 协议 对 应 的 值 为 6。 

g. 验证 数据 : 用 于 容纳 数据 完整 性 的 验证 结果 , 即 完整 性 验证 值 (Integrity Check 
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Value, ICV). 

ESP 的 工作 机 制 是 : 发 送 方 先 对 数据 包 进 行 加 密 , 再 用 信息 摘要 算法 计算 验证 数据 ,并 
作为 该 IP 分 组 的 一 部 分 一 起 转发 出 去 。 在 分 组 的 接收 端 ,重新 计算 该 摘要 并 与 原 摘 要 进行 
比较 ,验证 成 功 后 ,进行 解密 。 

(2) AH 

AH 也 是 一 种 IPSec 协议 ,协议 号 为 51, 用 于 为 IP 提供 数据 完整 性 ,数据 原始 身份 验证 
和 一 些 可 选 的 有 限 的 抗 重播 服务 。AH 不 提供 任何 


保密 性 服务 , 它 不 加 密 所 保护 的 数据 包 ,因此 AH 头 比 | Imm a 
ESP 头 简单 得 多 。 由 于 不 需要 填充 ,不 需要 填充 长 度 == 
指示 器 ,因此 也 不 存在 尾 , 另 外 ,也 不 需要 初始 化 向 量 。 序列 号 
图 7-9 描述 了 隧道 模式 下 受 AH 保护 的 IP 报 文 格式 。 Ë 验证 数据 
a. 载荷 长 度 : 表示 以 32 比特 为 单位 的 验证 头 的 IP 头 ( 原 ) 
长 度 减 去 2, 并 不 单 指 IP 包 的 实际 负载 长 度 。 TCP 头 
b. 下 一 个 头 、SPI 和 序列 号 : 这 几 个 字段 与 ESP 
中 的 意义 相同 。 zy 
c. 验证 数据 : 用 于 容纳 数据 完整 性 的 验证 结果 图 7-9 ”隧道 模式 下 的 AH fx 
(ICV)。 计 算出 ICV 之 前 ,该 字段 置 为 0。 与 ESP 不 格式 示意 图 


同 ,AH 将 完全 保护 扩展 到 外 部 IP 头 的 恒 有 或 预计 有 
的 字段 ,因此 ,在 做 ICV 计算 时 ,可 变 字段 必须 全 部 置 为 0。 可 变 字段 包括 IP 头 中 服务 类 
型 分 段 偏 移 `TTL、 头 校 验 和 等 。 

AH 的 工作 机 制 是 : 利用 单 向 的 信息 摘要 算法 ,对 整个 TP 分 组 或 上 层 协议 计算 一 个 摘 
要 并 作为 该 IP 分 组 的 一 部 分 一 起 转发 出 去 ,在 分 组 的 接收 端 ,重新 计算 该 摘要 并 与 原 摘要 
进行 比较 ,如 果 分 组 在 传输 过 程 中 被 修改 过 , 则 会 由 于 摘要 不 一 致 而 被 丢弃 ,从 而 实现 数据 
源 鉴别 和 数据 的 完整 性 保护 。 

(3) 安全 策略 和 安全 关联 

a, 安全 策略 (Security Policy,SP) 是 IPSec 中 尚未 成 为 标准 的 一 个 重要 组 件 , 它 决定 了 
为 一 个 数据 包 提 供 的 安全 服务 ,存放 在 安全 策略 数据 库 SPD rp. IP 包 的 发 送 和 接收 处 理 
都 要 以 安全 策略 为 准 , 并 且 ,要求 策略 管理 应 用 能 够 添加 、 删 除 和 修改 策略 ,但 SPD 的 具体 
管理 方式 由 实现 方案 决定 ,并 未 为 此 专门 定义 一 套 统一 的 标准 。 

每 个 SPD 中 的 条 目 由 选择 符 和 策略 项 组 成 ,根据 选择 符 (selector) 对 SPD 进行 检索 ,得 
到 相应 的 策略 。 选 择 符 是 从 网 络 层 和 传输 层 头 内 提取 出 来 的 ,包括 源 地 址 .目的 地 址 、 传 输 
协议 .上 层 端口 等 。 策 略 项 一 般 是 3 种 不 同 的 行为 之 一 : 丢弃 、 绕 过 和 应 用 IPSec。 当 采取 
应 用 IPSec 这 一 行为 时 ,策略 会 提供 一 个 三 元 组 或 四 元 组 ,可 以 称 作 SAID: < E ñ? Hb h: Ch 
部 地 址 ) .安全 协议 (ESP 或 AH) 、SPI> 或 志 源 地 址 .目的 地 址 、 安 全 协议 .SPI 盖 。 这 个 
SAID 作为 检索 SA 以 获得 详细 安全 参数 的 依据 。 

b. SA 是 构成 IPSec 的 基础 。SA 是 两 个 通信 实体 经 协商 建立 起 来 的 一 种 协定 。 它 们 
决定 了 用 来 保护 数据 包 安 全 的 IPSec 协议 (ESP 或 AH) 、 转 码 方式 、 密 钥 以 及 密 钥 的 有 效 存 
在 时 间 等 。 任 何 IPSec 实施 方案 始终 会 构建 一 个 安全 关联 数据 库 (Security Association 
Database. SAD) ,由 它 来 维护 IPSec 协议 用 来 保障 数据 包 安 全 的 SA 记录 。 


$73 基于 OpenSSL 的 安全 Web 服务 器 程序 


SA 是 单 向 的 。 如 果 两 个 主机 (比如 A 和 B) 正 在 通过 ESP 进行 安全 通信 ,那么 主机 A 
就 需要 有 一 个 SA, 即 SA Cou ,用 来 处 理 往外 发 的 数据 包 ; 另 外 还 需要 有 一 个 相对 应 的 
SA. BI SA Cin) ,用 来 处 理 进入 的 数据 包 。 主 机 A 的 SA (out) 和 主机 B 的 SA (in) 将 共享 相 
同 的 安全 参数 (比如 密 钥 ) 。 类 似 地 ,主机 和 A 的 SA (in) 和 主机 B 的 SA (out ) 也 会 共享 同样 
的 安全 参数 。 

每 个 SAD 中 的 条 目 也 可 以 看 成 由 两 部 分 组 成 : SAID 和 SA 记录 。SA 记录 中 主要 包 
括 序号 计数 器 ,算法 、 密 钥 .SA 的 TTL, IPSec 模式 等 。 

c. 在 包 的 处 理 过 程 中 ,SPD 和 SAD 这 两 个 数据 库 需 要 联合 使 用 。 外 出 处 理 时 先 检索 
SPD, 进 入 处 理 时 先 检索 SAD, 

对 一 个 发 送 的 数据 包 而 言 , 根 据 提取 的 选择 符 检 索 SPD, 它 会 命中 某 个 SP。 根 据 策 略 ， 
包 可 能 被 丢弃 、 直 接 传送 或 应 用 IPSec 安全 服务 ; 当 需 要 IPSec 安全 服务 时 ,SP 返回 一 个 
SAID, 用 SAID 检索 SAD, 最 终 命 中 SA。 根据 SA 指明 的 各 项 安全 参数 对 数据 包 进 行 安全 
封装 。 接 收 处 理 有 别 于 发 送 处 理 , 以 下 两 种 情况 应 分 别 对 待 : 如 果 收 到 的 数据 包 内 没有 
包含 IPSec 头 , 说 明 是 个 普通 IP 包 : 检索 SPD, 根 据 检索 结果 决定 将 包 丢 弃 , 或 者 传递 给 传 
输 层 做 进一步 的 处 理 。@1IP 包 中 含有 IPSec 头 : 提取 IPSec 头 部 信息 ,组 成 SAID, 检 索 
SAD, 根 据 SA 中 指明 的 各 项 安全 参数 对 数据 包 进行 验证 、 解 封装 。 接 着 ,根据 从 解 封 了 的 
原始 IP 包 中 提取 的 选择 符 检索 SPD, 验 证 SA 的 使 用 是 否 得 当 。 

(4) IKE 

IPSec 默认 的 自动 密 钥 管理 协议 是 IKE, IKE 是 Oakley 和 SKEME 协议 的 一 种 混合 ， 
并 在 由 ISAKMP 规定 的 框架 内 运作 。 

IKE 用 于 动态 建立 SA, IKE 代表 IPSec 对 SA 进行 协商 ,最 终 确 定 可 以 称 为 “保护 套 
件 ” 的 安全 参数 一 一 包括 加 密 算法 、 散 列 算法 、 验 证 方法 和 Diffie-Hellman 组 。 之 后 对 安全 
关联 库 SAD 进行 填充 。IKE 是 一 个 用 户 级 进程 ,启动 后 作为 后 台 守 护 进 程 运行 ,在 需要 使 
用 IKE 服务 前 它 一 直 处 于 不 活动 状态 。 

可 以 通过 以 下 两 种 方式 来 请 求 IKE 服务 : 

a. 内 核 的 安全 策略 模块 要 求 自动 建立 SA 时 ; 

b. 远程 IKE 实体 需要 协商 SA 时 。 

IKE 使 用 了 两 个 阶段 的 ISAKMP。 在 第 一 阶段 ,通信 各 方 彼此 间 建 立 一 个 已 经 通过 身 
份 验证 和 安全 保护 的 通道 , 即 建立 IKE 安全 联盟 。 在 第 二 阶段 ,利用 这 个 既定 的 安全 联盟 ， 
为 IPSec 协商 具体 的 安全 联盟 。 

IKE 共 定 义 了 5 种 交换 : 两 个 阶段 1 次 交换 ,1 个 阶段 两 次 交换 ,两 个 额外 的 交换 。 阶 
段 一 的 两 种 交换 : 对 身份 进行 保护 的 “ 主 模式 ”交换 ,根据 基本 ISAKMP 文档 制订 的 “野蛮 
模式 ”交换 。 阶 段 二 使 用 “快速 模式 ”交换 。IKE 自己 定义 了 两 种 交换 : 为 通信 各 方 之 间 
协商 一 个 新 的 Diffie-Hellman 组 类 型 的 “新 组 模式 "交换; OWE IKE 通信 双方 间 传 送 错误 及 
状态 消息 的 ISAKMP 信息 交换 。 

IKE 保证 了 动态 建立 安全 联盟 和 建立 过 程 的 安全 。IKE 的 实现 是 IPSec 协议 实现 的 重 
要 组 成 部 分 ,其 实现 极为 复杂 :但 它 也 很 可 能 成 为 整个 系统 的 瓶颈 。 优 化 IKE 程序 .优化 密 
钥 算 法 是 实现 IPSec 的 核心 问题 之 一 。 
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2. IPSec 工作 模式 


IPSec 协议 既 可 以 用 来 保护 IP 上 层 协议 ,也 可 以 用 来 保护 一 个 完整 的 IP 数据 包 。 这 两 
方面 的 保护 分 别 由 IPSec 的 传输 模式 和 隧道 模式 来 提供 。 数 据 包 格式 如 图 7-10 所 示 。 


原始 数据 包 : IP 头 | TCP 头 | 数据 
传输 模式 下 的 数据 包 ， X [isek] rex | 数据 [sere] 
隧道 模式 下 的 数据 包 : PIP% | IPSec | IP 头 | TCP 头 | 数据 | PSec 尾 


图 7-10 两 种 IPSec 模式 的 数据 包 结构 示意 图 


只 有 在 要 求 端 到 端的 安全 保障 时 ,才能 使 用 IPSec 的 传输 模式 。 路 由 器 主要 通过 检查 
网 络 层 来 做 出 路 由 决定 ,而 且 路 由 器 不 会 ,也 不 应 该 改变 网 络 层 头 之 外 的 其 他 东西 。 如 果 通 
过 路 由 器 为 数据 包 流 插入 传输 模式 的 IPSec 头 , 便 违反 了 这 一 规则 。 

在 隧道 模式 中 ,把 要 保护 的 整个 IP 包 封 装 到 另 一 个 IP 数据 包 里 ,增加 了 一 个 新 的 IP 
头 。 通 信 终 点 由 内 部 IP 头 指定 ,而 加 密 终点 , 即 隧道 终点 , 则 由 外 部 新 的 IP 头 指定 。 


第 s 
网 络 端口 扫描 器 的 设计 与 编程 


8.1 本 章 训练 目的 与 要 求 


网 络 端口 扫描 器 是 一 种 重要 的 网 络 安全 检测 设备 ,也 是 黑客 进行 网 络 攻击 的 重要 工具 
之 一 。 通 过 端口 扫描 ,不 仅 可 以 发 现 目标 主机 的 开放 端口 和 操作 系统 的 类 型 ,还 可 以 查找 系 
统 的 安全 漏洞 ,获得 口令 缺陷 等 相关 信息 。 因 此 ,掌握 端口 扫描 基本 工作 原理 与 软件 设计 方 
法 是 信息 安全 工程 师 必 须 掌 握 的 基本 技能 之 一 。 同 时 ,研究 网 络 端口 扫描 器 的 实现 方法 ,对 
于 维护 网 络 系统 的 安全 ,了 解 黑客 攻击 的 手段 有 着 重要 的 意义 。 

本 章 训练 的 主要 目的 是 : 

(1) 理解 网 络 端口 扫描 器 的 基本 结构 .工作 原理 与 设计 方法 。 

(2) 掌握 TCP connect 扫描 ,TCP SYN 扫描 、TCP FIN 扫描 ,以 及 UDP 扫描 的 基本 工 
作 原 理 、 设 计 与 实现 方法 。 

(3) 掌握 ping 程序 的 设计 与 实现 方法 。 

(4) 掌握 Linux 操作 系统 多 线程 编程 的 基本 方法 。 

本 章 编程 训练 的 要 求 如 下 : 

(1) 编写 端口 扫描 程序 ,实现 TCP connect 扫描 ,TCP SYN 扫描 ,TCP FIN 扫描 以 及 
UDP 扫描 等 4 种 基本 的 扫描 方式 。 

(2) 设计 并 实现 ping 程序 ,探测 目标 主机 是 否 可 达 。 


8.2 相关 背景 知识 


8.2.1 ping 程序 


ping 程序 是 日 常 网 络 管理 中 经 常 使 用 的 程序 。 它 用 于 确定 本 地 主机 与 网 络 中 其 他 主 
机 的 通信 情况 。 因 为 只 是 简单 地 探测 某 一 IP 地 址 所 对 应 的 主机 是 否 存在 ,因此 它 的 原理 十 
分 简单 。 扫 描 发 起 主机 向 目标 主机 发 送 一 个 要 求 回 显 (type 二 8, 即 为 ICMP_ECHO) 的 ICMP 
数据 包 , 目 标 主机 在 收 到 请 求 后 ,会 返回 一 个 回 显 (type 二 0, 即 为 ICMP_ECHOREPLY) 的 
ICMP 数据 包 。 扫 描 发 起 主机 可 以 通过 是 否 接收 到 响应 的 ICMP 数据 包 来 判断 目标 主机 是 
否 存在 。 

在 本 章 编程 中 ,可 以 在 向 目标 主机 发 起 端口 扫描 之 前 使 用 ping 程序 确定 目标 主机 是 
BFE. WF ping 目标 主机 成 功 , 则 继续 后 面 的 扫描 工作 ;和 否则 ,放弃 对 目标 主机 的 
扫描 。 
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8.2.2 TCP 扫描 


1. TOP 连接 建立 过 程 


图 3-3 已 经 给 出 了 TCP 报头 的 结构 。 对 于 TCP 端口 扫描 而 言 ,TCP 协议 的 标志 位 起 
着 至 关 重要 的 作用 。 虽 然 TCP 扫描 的 种 类 繁多 ,但 是 它们 的 原理 都 与 TCP 连接 的 建立 过 
程 密切 相关 。 在 介绍 各 种 TCP 扫描 之 前 ,必须 深入 理解 一 个 TCP 连接 的 建立 过 程 。 该 过 
程 的 步骤 如 下 : 

CD 首先 客户 端 (请 求 方 ) 在 连接 请 求 中 ,向 服务 器 端 (接收 方 ) 发 送 SYN=1, ACK=0 
的 TCP 数据 包 , 表 示 希 望 与 服务 器 建立 一 个 连接 。 

(2) 如 果 服 务 器 端 响应 这 个 连接 请 求 , 就 返回 一 个 SYN=1,ACK=1 的 数据 包 给 客户 
端 ,表示 服务 器 端 同意 建立 这 个 连接 ,并 要 求 客户 端 进行 确认 。 

G) 最 后 客户 端 发 送 一 个 SYN=0,ACK=1 的 数据 包 给 服务 器 端 ,表示 确认 建立 连接 。 


2. 5 TCP 协议 相关 的 3 种 扫描 


(D connect 扫描 

TCP connect 扫描 非常 简单 。 扫 描 发 起 主机 只 需要 调用 系统 API connect 尝试 连接 目标 主 
机 的 指定 端口 ,如 果 connect 成 功 ,那么 意味 着 扫描 发 起 主机 与 目标 主机 之 间 至 少 经 历 了 一 次 
完整 的 TCP 三 次 握手 建立 连接 过 程 ,因此 被 测 端口 是 开放 的 ;否则 表示 被 测 端口 关闭 。 

虽然 在 编程 时 不 需要 程序 员 手 动 构造 TCP 数据 包 , 但 是 connect 扫描 的 效率 非常 低 。 
由 于 TCP 协议 是 可 靠 传输 协议 ,connect 系统 调用 不 会 在 尝试 发 送 第 一 个 SYN 包 未 得 到 响 
应 的 情况 下 就 放弃 ,而 是 会 经 过 多 次 尝试 后 才 彻 底 放弃 ,因此 需要 较 长 的 时 间 。 此 外 ， 
connect 失败 会 在 系统 中 造成 大 量 的 连接 失败 日 志 , 容 易 被 管理 员 发 现 。 

(2) SYN 扫描 

TCP SYN 扫描 是 使 用 最 广泛 的 扫描 方式 ,其 原理 就 是 向 待 扫描 端口 发 送 SYN 数据 
包 。 如 果 扫 描 发 起 主机 能 够 收 到 ACKISYN 数据 包 , 则 表示 端口 开放 ;如 果 收 到 RST 数据 
包 , 则 表示 端口 关闭 。 如 果 未 收 到 任何 数据 包 , 且 确定 目标 主机 存在 , 则 发 送 给 被 测 端口 的 
SYN 数据 包 可 能 被 防火 墙 等 安全 设备 过 滤 。 因 为 SYN 扫描 不 需要 完成 TCP 连接 的 三 次 
握手 过 程 ,所 以 它 又 被 称 为 半 开 放 扫 描 。 

SYN 扫描 的 最 大 优点 就 是 速度 快 。 在 Internet 中 ,如 果 不 考 虑 防火 墙 的 影响 ,SYN 扫 
描 每 秒 钟 可 以 扫描 数 千 个 端口 。 但 是 由 于 其 扫描 行为 较为 明显 ,SYN 扫描 容易 被 人 侵 检测 
系统 发 现 , 也 容易 被 防火 墙 屏蔽 。 同 时 构造 原始 的 TCP 数据 包 也 需要 较 高 的 系统 权限 (在 
Linux 中 仅 限 于 root 账户 ) 。 

(3) FIN 扫描 

TCP FIN 扫描 会 向 目标 主机 的 被 测 端口 发 送 一 个 FIN 数据 包 。 如 果 目 标 主机 没有 任 
何 响应 且 确 定 该 主机 存在 , 则 表示 目标 主机 正在 监听 这 个 端口 ,端口 是 开放 的 ;如 果 目 标 主 
机 返回 一 个 RST 数据 包 且 确定 该 主机 存在 , 则 表示 目标 主机 没有 监听 这 个 端口 ,端口 是 关 
闭 的 。 

FIN 扫描 具有 良好 的 隐蔽 性 ,不 会 留 下 日 志 。 但 是 它 的 应 用 具有 很 大 的 局 限 性 。 由 于 不 
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同系 统 实现 网 络 协议 栈 的 细节 不 同 ,FIN 扫描 只 能 扫描 Linux/UNIX 系统 。 对 于 Windows 系 
统 而 言 , 由 于 无 论 其 端口 开放 与 否 ,都 会 返回 RST 数据 包 , 因 此 对 端口 的 状态 无 法 进行 判断 。 


8.2.3 UDP 扫描 


一 般 情 况 下 , 当 向 一 个 关闭 的 UDP 端口 发 送 数据 时 ,目标 主机 会 返回 一 个 ICMP 不 可 
达 (ICMP port unreachable) 的 错误 。UDP 扫描 就 是 利用 了 上 述 原 理 , 向 被 扫描 端口 发 送 
0 字 节 的 UDP 数据 包 , 如 果 收 到 一 个 ICMP 不 可 达 响 应 , 则 认为 端口 是 关闭 的 ;而 对 于 那些 
长 时 间 没 有 响应 的 端口 , 则 认为 是 开放 的 。 

但 是 ,因为 大 部 分 系统 都 限制 了 ICMP 差错 报 文 的 产生 速度 ,所 以 针对 特定 主机 的 大 范 
围 UDP 端口 扫描 的 速度 非常 缓慢 。 此 外 ,UDP 协议 和 ICMP 协议 是 不 可 靠 协议 ,数据 包 丢 
失 也 可 能 造成 没有 收 到 响应 的 情况 ,因此 扫描 程序 必须 对 同一 端口 进行 多 次 尝试 后 才能 得 
出 正确 的 结论 。 


8.2.4 使 用 原始 套 接 字 构造 并 发 送 数 据 包 


本 书 第 6 章 已 经 对 原始 套 接 字 (SOCK_RAW) 进 行 了 简单 介绍 。 与 流 套 接 字 和 数据 报 
套 接 字 相 比 ,原始 套 接 字 的 独特 之 处 在 于 程序 员 可 以 创建 并 填充 协议 头 。 在 编写 端口 扫描 
器 程序 时 ,除了 TCP connect 扫描 可 以 直接 调用 connect 函数 完成 数据 包 的 封装 、 发 送 和 接 
收工 作 以 外 ,其 他 扫描 程序 (包括 ping 程序 ) 都 需要 手动 构造 数据 包 。 因 此 ,使 用 原始 套 接 
字 构 造 数据 包 并 将 其 发 送 到 目标 主机 的 指定 端口 是 编写 端口 扫描 器 程序 的 关键 。 下 面 将 详 
细 讨 论 使 用 原始 套 接 字 构 造 并 发 送 数据 包 的 基本 流程 。 


1. 创建 原始 套 接 字 


socket PK Xi &)] t Jt t 4 dz (0 domain 一 般 选择 AF_INET, 表 示 IPv4 协议 ;参数 
type 选择 SOCK. RAW ,表示 建立 原始 套 接 字 ;参数 protocol 表明 操作 的 是 哪 一 种 协议 的 数 
据 包 , 一 般 有 IPPROTO_IP.IPPROTO_TCP.IPPROTO_ UDP 和 IPPROTO ICMP 等 ( 代 
码 如 下 ) 。 


Int socket (int dain, int type, int protocol); 
2. 设置 套 接 字 选项 


创建 原始 套 接 字 后 ,可 以 根据 需要 调用 setsockopt 函数 来 设置 当前 套 接 字 的 选项 。 
setsocketopt 函数 的 声明 如 下 : 

int setscckcpt (int sockfd, int level, int qbtnare，const char void* cptval, socklen t* cptlen); 

参数 sockfd 是 标识 套 接 字 的 描述 符 ; 参 数 Level 表示 控制 套 接 字 的 层次 ,对 TCP/IP 协 
议 栈 ,level 支持 3 种 层次 SOL_SOCKET( 通 用 套 接 字 选项 ),IPPROTO_IP(IP 选项 ) 和 
IPPROTO TCP(TCP 选项 ) ;参数 Optname 表示 sockfd 所 标识 的 套 接 字 需要 设置 选项 的 
名 称 ,如 果 需 要 构建 数据 包 的 IP 头 就 将 Optname 设 为 IP_HDRINCL; 参 数 optval 是 一 个 
指针 ,指向 存放 选项 值 的 缓冲 区 。optval 需要 根据 选项 不 同 的 数据 类 型 进行 转换 ;参数 
optlen 表示 optval 所 指向 的 缓冲 区 的 长 度 。 
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3. 创建 并 填充 协议 报头 


And 8-1 所 示 , Linux 系统 已 经 定义 了 常用 协议 的 报头 结构 ,比如 iphdr、 tcphdr、 
udphdr,icmphdr 等 。 在 创建 协议 数据 包 的 时 候 , 只 需要 根据 对 应 的 结构 体 定义 申请 一 块 新 
的 内 存 空间 ,并 用 指针 指向 这 块 空间 的 地 址 即 可 。 结 构 iphdr、tcphdr、udphdr、icemphdr 的 


声明 如 下 。 
表 8-1 Linux 系统 常用 协议 的 报头 结构 
协议 头 数据 结构 Xx 
IP 协议 头 struct iphdr — netinet/ip. h> 
TCP 协议 头 struct tcphdr <netinet/tcp. h> 
UDP 协议 头 struct udphdr — netinet/udp. h> 
ICMP 协议 头 struct icmphdr —netinet/ip icmp. h> 
/| 结构 体 声明 
struct iphdr /AIP 协 议 头 
# elif defined 
(LITTIE ENDIAN BITFIELD) // 下 协议 的 版 本 定义 


/我国 一 般 使 用 BIG 的 定义 


// 正 报头 标 长 


// 服 务 类 型 

// 总 长 度 

// 标 识 

// 标 志 + 片 偏 移 
// 生 存 时 间 
p 

/ Bk EC 
// 源 下 地 址 

// 目 的 了 地址 


/ ice UU 


// 源 端口 号 

// 目 的 端口 号 

// 序 号 

// 确 认 号 
/trrmE 版 本 的 定义 


*elif BYIE ORDER-— BIG ENDIAN 
u intl6 t doff:4; 
u intl6 t res1:4; 
u int16 t res2:2; 
u intl6 t urg:l; 
u intl6 t ack:1; 
u intl6 t psh:l; 
u intl6 t rst:l; 
u intlé t syn:1; 
u intlé t fin:l; 
felse 
# error "Adjust your defines" 
#endif 
u intlé t window; 
u intl6 t check; 
u int16 t urg ptr; 
n 
struct udphdr 
t 
u intl6 t source; 
u intlé t dest; 
u intl6 t len; 
u intl6 t check; 
Nn 
struct iamhdr 
f 
u int8 t type; 
u int8 t oode; 
u intlé t checksum; 
union 


t 


u intl6 t id; 

u intl6 t sequence; 
} echo; 
u int32 t gateway; 
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//4bit 报 头 长 度 
/VEbit 保 留 


/BR 位 
Wa 位 
/es 位 
/EST 位 
/SN 位 
/Em 位 


// 窗 口 大 小 
// 校 验 和 
// 紧 急 指针 


/upP 协 议 头 
// 源 端口 

// 目 的 端口 
/数据 报 长 度 
// 校 验 和 
//ICMP 协 议 头 
/类 型 


a 
//0 校 验 和 


//echo 数 据 报 


// 网 关 地 址 
/Mo 值 
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4. 发 送 数据 包 


在 填充 完 数据 包 之 后 ,需要 调用 sendto 函数 将 数据 包 发 送出 去 。 函 数 声 明 如 下 ,参数 s 
是 标识 套 接 字 的 描述 符 ,参数 buf 为 指向 发 送 数据 包 的 指针 ,参数 len 表示 内 存 空间 的 大 
小 ,参数 to 为 指向 接收 方 地 址 的 指针 ,参数 tolen 为 指向 接收 方 地址 大 小 的 指针 。sendto PR 
数 既 可 用 于 无 连接 套 接 字 的 通信 ,也 可 用 于 面向 连接 的 套 接 字 通 信 。 当 用 于 面向 连接 的 通 
信和 时 ( 套 接 字 类 型 为 SOCK_STREAM) ,将 省 略 参数 to 和 tolen, 


ssize t sendto(int s, const void* buf, size t len, int flags, const struct sockaddr * to, socklen t tolen) 


需要 指出 的 是 ,在 一 般 情 况 下 sendto 函数 的 buf 指针 所 指向 的 数据 包 不 包含 IP 报头 。 
比如 ,在 UDP 扫描 中 ,buf 所 指向 的 缓冲 区 内 只 包含 UDP 头 和 数据 字段 。 如 果 要 亲自 处 理 
IP 报头 ,一定 要 在 第 2 步 中 调用 setsocketopt 函数 设置 套 接 字 的 选项 ,代码 如 下 ; 

int flag-1; 

setsockopt(sockfd, IPPROTO IP, IP HIRINCL, &flag, sizeof (int)); 

调用 setsockopt 函数 后 ,buf 所 指向 的 缓冲 区 由 IP 3k, TCP 头 ( 或 者 UDP 头等 其 他 协 
议 头 ) 和 数据 字段 3 部 分 组 成 。 


5. 接收 数据 包 


在 发 送 完 数据 包 以 后 ,需要 调用 recvfrom 函数 来 接收 响应 数据 包 。recvfrom 函数 的 声 
明 如 下 ,参数 s 是 标识 套 接 字 的 描述 符 ,参数 buf 为 指向 接收 到 信息 的 指针 ,参数 len 为 内 存 
空间 的 大 小 ,flags 为 控制 参数 ,用 于 控制 是 否 接收 带 外 数据 ,参数 from 为 指向 发 送 方 地 址 
的 指针 ,参数 fromlen 为 指向 发 送 方 地 址 大 小 的 指针 。 同 样 ,recvfrom 函数 既 可 以 用 于 无 连 
接 的 套 接 字 通 信 , 也 可 以 用 于 面向 连接 的 通信 。 

ssize t recvfram(int s, void* buf, size t len, int flags, struct sockaddr* fram, 

socklen t* framlen) 

一 般 在 接收 数据 时 ,recvfrom 函数 处 于 阻塞 状态 ,直到 收 到 一 个 数据 包 才 会 返回 。 如 
果 和 希望 recvfrom 在 接收 数据 包 时 处 于 非 阻 塞 状态 , 则 需要 调用 机 数 fcntl 将 套 接 字 设 置 为 
非 阻 塞 模式 。 具 体 代 码 如 下 ,其 中 参数 Sockfd 表示 所 设置 的 套 接 字 描述 符 。 

fcntl (int Sockfd, F SETFL, O NONBLOCK) 

另外 ,在 Linux 中 ,可 以 将 套 接 字 看 成 文件 描述 符 , 这 样 在 进行 数据 发 送 与 接收 的 时 候 
就 可 以 调用 write 和 read 函数 对 文件 描述 符 进行 读 写 。write 函数 和 read 函数 的 定义 
WF. 

ssize t write(int fd, const void* buf, size t nbytes) 

ssize t read (int fd, void* buf, size t rbyte) 

write 函数 将 buf 中 的 nbytes 字 节 内 容 写 入 文件 描述 符 fd 中 ,车 成 功 , 则 返回 写 的 字 节 
数 ; 若 失败 , 则 返回 一 1, 并 设置 errno 变量 。read 函数 则 负责 从 fd 中 读 取 内 容 。 当 读 取 成 
功 时 ,read 返回 实际 所 读 取 的 字 节 数 ;如 果 返 回 值 是 0, 则 表示 已 经 读 到 文件 末尾 ;小 于 0, 则 
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表示 出 现 错误 。 如 果 错 误 为 EINTR, 则 说 明 读 错误 是 由 中 断 引 起 的 ; 如 果 错 误 是 
ECONNREST, 则 表示 网 络 连接 出 现 问题 。 


8.3 实例 编程 练习 


8.3.1 编程 练习 要 求 


在 Linux 环境 中 编写 一 个 端口 扫描 器 ,利用 套 接 字 (socket) 正 确实 现 ping 程序 、TCP 
connect 扫描 、TCP SYN 扫描 ,TCP FIN 扫描 以 及 UDP 扫描 。ping 程序 在 用 户 输入 被 扫描 
主机 IP 地 址 之 后 探测 该 主机 是 否 可 达 。 其 他 4 种 扫描 在 指定 被 扫描 主机 IP 地 址 、 起 始 端 
口 以 及 终止 端口 之 后 ,从 起 始 端口 到 终止 端口 对 被 测 主 机 进行 扫描 。 最 后 将 每 一 个 端口 的 
扫描 结果 正确 地 显示 出 来 。 


1. 程序 输入 格式 

程序 为 命令 行程 序 , 可 执行 文件 名 为 Scaner, 命 令 行 格式 如 下 : 

./Scaner ” [选项] 

其 中 [选项 ] 是 程序 为 用 户 提 供 的 多 种 功能 。 本 程序 中 ,[ 选 项 ] 包 括 {-h,-c,-s,-f,-u) 
5 项 基本 功能 。-h 表示 显示 帮助 信息 ;-c 表示 进行 TCP connect 扫描 ;-s 表示 进行 TCP SYN 
扫描 ;-f 表示 进行 TCP FIN 扫描 ;-u 表示 进行 UDP 扫描 。 

2. 程序 的 执行 过 程 


(1) 停 用 iptables 服务 

首先 在 Shell 命令 行 下 输入 “service iptables stop” 停 止 iptables 防火 墙 的 过 滤 功 能 ,以 
保证 端口 扫描 程序 能 够 正常 地 接收 各 种 响应 数据 包 。 

(2) 打印 帮助 信息 

在 控制 台 命令 行 中 输入 . /Scaner -h, 打 印 端口 扫描 器 程序 的 帮助 信息 (如 下 所 示 )。 帮 
助 信息 详细 地 说 明了 程序 的 各 个 选项 和 参数 。 用 户 可 以 通过 查询 帮助 信息 充分 了 解 程序 的 
各 项 功能 。 


[root@ localhost Scaner]# ./Scaner -h 


Scaner: usage: [- h] —- help information 
[-cl — — TCP connect. scan 
[Es] —-'TCP syn scan 
Ef] -- TCP fin scan 
[-u] —— UDP scan 


(3) 进行 TCP connect 扫描 

在 控制 台 命 令 行 中 输入 . /Scaner -c, 开 始 进 行 TCP connect 扫描 。 程 序 提示 用 户 输入 
扫描 目标 主机 的 IP 地 址 ,扫描 起 始 端 口 与 终止 端口 。 在 检验 IP 地 址 和 端口 的 正确 性 之 后 ， 
程序 首先 利用 ping 程序 探测 目标 主机 的 IP 地 址 是 否 可 达 , 如 果 不 可 达 , 则 放弃 对 该 主机 的 
扫描 ;否则 开启 扫描 线程 ,依次 扫描 每 个 端口 并 将 扫描 结果 实时 地 显示 出 来 。 
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[xoot localhost Scaner]# ./Scaner -c 
Please input IP address of a Host:192.168.1.158 
Please input the range of port... 

Begin Fort:1 

End Port:255 

Scan Host 192.168.1.158 port 1~ 10 ... 

Ping Host 192.168.1.158 Successfully! 

Host: 192.168.1.158 Port: 1 closed! 

Host: 190.168.1.158 Port: 2 closed! 


(4) 进行 TCP SYN 扫描 
在 控制 台 命 令 行 中 输入 . /Scaner -s, 开 始 TCP SYN 扫描 (如 下 所 示 )。 程 序 提 示 用 户 


输入 扫描 目标 主机 的 IP 地 址 、 扫 描 起 始 端口 与 终止 端口 。 在 检验 IP 地 址 和 端口 的 正确 性 
之 后 ,程序 首先 利用 ping 程序 探测 目标 主机 的 TP 地 址 是 否 可 达 , 如 果 不 可 达 , 则 放弃 对 该 
主机 的 扫描 ;否则 开启 扫描 线程 ,依次 扫描 每 个 端口 并 将 扫描 结果 实时 地 显示 出 来 。 


[root localhost Scaner]# ./Scaner -s 

Please input IP address of a Host:192.168.1.158 
Please input the range of port... 

Begin Fort:1 

End Port:255 

Scan Host. 192.168.1.158 port 1~ 10 ... 

Ping Host 192.168.1.158 Successfully! 

Begin TCP SYN scan... 

Host: 192.168.1.158 Port: 1 closed! 

Host: 192.168.1.158 Port: 2 closed! 


(5) 进行 TCP FIN 扫描 
在 控制 台 命 令 行 中 输入 . /Scaner -f, 开 始 进行 TCP FIN 扫描 (如 下 所 示 )。 程 序 提示 用 


户 输入 扫描 目标 主机 的 IP 地 址 ,扫描 起 始 端 口 与 终止 端口 。 在 检验 IP 地 址 和 端口 的 正确 
性 之 后 ,程序 首先 利用 ping 程序 探测 目标 主机 的 IP 地 址 是 否 可 达 , 如 果 不 可 达 , 则 放弃 对 
该 主机 的 扫描 ;否则 开启 扫描 线程 ,依次 扫描 每 个 端口 并 将 扫描 结果 实时 地 显示 出 来 。 


[root@ localhost Scaner]# ./Scaner - f 
Please input IP address of a Host:192.168.1.158 
Please input the range of port... 

Begin Port:l 

End Fort:255 

Scan Host 192.168.1.158 port 1~ 10 ... 

Ping Host 192.168.1.158 Successfully! 

Host: 192.168.1.158 Port: 1 closed! 

Host: 192.168.1.158 Port: 2 closed! 


第 8 章 网络 端口 扫描 器 的 设计 与 编程 


(6) 进行 TCP UDP 扫描 

在 控制 台 命 令 行 中 输入 . /Scaner -u, 开 始 进 行 UDP 扫描 (如 下 所 示 )。 程 序 提示 用 户 
输入 扫描 目标 主机 的 IP 地 址 、 扫 描 起 始 端口 与 终止 端口 。 在 检验 IP 地 址 和 端口 的 正确 性 
之 后 ,程序 首先 利用 ping 程序 探测 目标 主机 的 IP 地 址 是 否 可 达 , 如 果 不 可 达 , 则 放弃 对 该 
主机 的 扫描 ;否则 开启 扫描 线程 ,依次 扫描 每 个 端口 并 将 扫描 结果 实时 地 显示 出 来 。 


[root localhost Scaner]# ./Scaner -u 

Please input IP address of a Host:192.168.1.158 
Please input the range of port... 

Begin Fort:1 

End Fort:10 

Scan Host 192.168.1.158 port 1~ 10 ... 

Ping Host 192.168.1.158 Successfully! 

Begin UDP scan... 

Host: 192.168.1.158 Port: 1 closed! 

Host: 192.168.1.158 Port: 2 closed! 


综 上 所 述 ,本 程序 在 Linux 平台 下 ,利用 套 接 字 编 程 实现 了 ping 程序 ,并 且 在 指定 扫描 
端口 范围 的 情况 下 ,实现 了 对 目标 主机 的 TCP connect 扫描 ,TCP SYN 扫描 ,TCP FIN 扫 
描 以 及 UDP 扫描 。 


8.3.2 编程 训练 设计 与 分 析 


1. 端口 扫描 器 程序 Scaner 


端口 扫描 器 程序 Scaner 的 流程 比较 简单 。 在 main 函数 中 只 需 完成 与 用 户 进行 交互 、 
检测 用 户 输入 ,以 及 调用 各 个 扫描 功能 模块 这 3 方面 的 工作 。 图 8-1 给 出 了 端口 扫描 器 程 
FË Scaner 的 流程 。Scaner 程序 的 流程 分 为 以 下 8 个 步骤 ， 

(1) 首先 判断 是 否 需 要 输出 帮助 信息 ,若是 , 则 输出 端口 扫描 器 程序 的 帮助 信息 ,然后 
退出 ;否则 ,继续 执行 下 面 的 步 又。 

(2) 用 户 输入 被 扫描 主机 的 IP 地 址 、 扫 描 起 始 端口 和 终止 端口 。 

(3) 判断 IP 地 址 与 端口 号 是 否 错误 , 若 错误 , 则 提示 用 户 并 退出 ;和 否则 ,继续 下 面 的 
步骤 。 

(A) 调用 Ping 函数 ,判断 被 扫描 主机 是 否 可 达 ,. 若 不 可 达 , 则 提示 用 户 并 退出 ;否则 , 继 
续 下 面 的 步骤 。 

(5) 判断 是 否 进 行 TCP connect 扫描 ,若是 , 则 开启 TCP connect 扫描 子 线程 ,从 起 始 
端口 到 终止 端口 对 目标 主机 进行 扫描 ,并 把 扫描 结果 显示 出 来 ;否则 ,继续 执行 下 面 的 步 又。 

(6) 判断 是 否 进 行 TCP SYN 扫描 ,若是 , 则 开启 TCP SYN 扫描 子 线程 ,从 起 始 端口 到 
终止 端口 对 目标 主机 进行 扫描 ,并 把 扫描 结果 显示 出 来 ;否则 ,继续 执行 下 面 的 步骤 。 

(7) 判断 是 否 进行 TCP FIN 扫描 ,若是 , 则 开启 TCP FIN 扫描 子 线程 ,从 起 始 端口 到 
终止 端口 对 目标 主机 进行 扫描 ,并 把 扫描 结果 显示 出 来 ;否则 ,继续 执行 下 面 的 步骤 。 
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输入 被 扫描 主机 的 IP 地址、 
起 始 端口 与 终止 端口 


Y 
z N fing 被 扫描 主机 成 功 ? 
帮 
助 Y 
信 
8 是 否 进 行 TCP connect jA? — | 创建 于 线程 扫描 

N 

是 否 进 行 TCP SYN 扫描 ? Y 创建 子 线程 扫描 上 一 | 


N 
是 否 进行 TCP FIN 扫描 ? Y. | 创建 子 线程 扫描 | 
N 


是 否 进行 TCP UDP 扫描? Y | 创建 子 线程 扫描 上 


N 


一 


退出 
图 8-1 Scaner 程序 流程 图 
(8) 判断 是 否 进行 UDP 扫描 ,若是 , 则 开启 UDP 扫描 子 线程 ,从 起 始 端口 到 终止 端口 
对 目标 主机 进行 扫描 ,并 把 扫描 结果 显示 出 来 ;否则 ,继续 执行 下 面 的 步 又。 
(9) 等 待 所 有 扫描 子 线程 返回 后 退出 。 


在 端口 扫描 器 的 主流 程 中 先后 调用 ping 程序 、TCP connect 扫描 、TCP SYN 扫描 、 
TCP FIN 扫描 以 及 UDP 扫描 等 5 个 功能 模块 。 


2. ICMP 探测 指定 主机 


Ping 程序 用 于 测量 本 地 主机 与 目标 主机 之 间 的 网 络 通信 情况 。Ping 程序 首先 发 送 一 
个 ICMP 请 求 数据 包 给 目标 主机 。 如 果 目 标 主机 返回 一 个 ICMP 响应 数据 包 , 则 表示 两 台 
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主机 之 间 的 通信 状况 良好 ,可 以 继续 后 面 的 扫描 操作 ;否则 ,整个 程序 将 退出 。 

在 端口 扫描 器 程序 中 , Ping 功能 由 函数 bool Ping (string HostIP, unsigned 
LocalHostIP) 实 现 。 在 Ping 函数 中 完成 了 填充 ICMP 数据 包 , 向 目标 主机 发 送 请 求 以 及 接 
收 响应 等 功能 。 若 目标 主机 可 达 , 则 返回 true; 否则 ,返回 false; Ping 函数 的 部 分 代码 
如 下 : 


bool Ping(string HostIP,unsigned LocalHostIP) 
t 
// 变 量 定义 
// 创 建 套 接 字 
PingSock- socket (AF INET,SOCK RAN, IPPFOTO IOMP); 


// 设 置 套 接 字 选 项 
en-1; 


ret- setsockept (PingSock,0,IP HDRINCL, &on, sizeof (on) ) ; 


// 创 建 Ia 请 求 数据 包 

SendBufSize- sizeof (struct iphdr)+ sizeof (struct iamhdr)* sizeof (struct timeval); 
SendBuf- (char * )malloc(SencBufSize) ; 

memset (SendBuf, 0, sizeof (SendBuf) ) ; 


// 慎 充 18 3k 

ip= (struct iphdr * )SendBuf; 
ip-»ihl-5; 

ip-» version- 4; 

ip-» tos= 0; 

ip-> tot_len= htons (SendBufSize); 
ip-> id- rand(); 

ip->ttl= 64; 

ip-> frag off- 0x40; 

ip-> protocol= IPFFOTO IQVP; 
ip-» check- 0; 

ip-» saddr- LocalHostIP; 
ip-»daddr- inet acr (sHostIP[0]); 


// 填 充 iam 头 

ia (struct iaxbhdr* ) (ipt 1); 
iam-» type- IOMP ECHO; 

iam-» code= 0; 

iam-» un.echo.id- htons (LocalPort) ; 
iam-» un.echo.sequence- 0; 


tp- (struct timeval* )&SendBuf [28]; 
gettimeofday (tp, NULL) ; 
icmp-> checksum= in cksum((u short* )iam, 
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sizeof (struct icmphdr)+ sizeof (struct. timeval)); 


// 设 置 套 接 字 的 发 送 地 址 

PingHostAddr.sin femily-AF INET; 

PingHostAdir.sin addr.s_addr= inet addr(sHostIP[0]); 
Addrler= sizeof (struct sockecdr in); 


// 发 送 rcup VK 
ret- sendto (PingSock, SendBuf, SendBufSize, 0, (struct. sockaddr * )sPinglostAdir, 
sizeof (PingHostActir)) ; 


/将 套 接 字 设置 为 非 阻 塞 模式 
if(fcntl(PingSock, F_SETEL, O NONBIOCK)- = - 1) 


// 循 环 等 待 接收 IaP 响 应 
gettimeofday (&TpStart, NULL) ; // 获 得 循环 起 始 时 刻 
flags- false; 
do 
t 
/接收 Ioe 响 应 
ret recvfran (PingSock, RecvBuf, 1024, 0, (struct sockaddr * )gFrampadr, 
(socklen tx )sAddrlen); 


if (ret> 0) // 如 果 接 收 到 一 个 数据 包 , 对 其 进行 解析 


{ 
Recvip= (struct ip* )RecvBuf; 
Recviam- (struct iamp* ) RecvBuft (Recvip-» ip hl* 4)); 


SrcIP-inet ntoa (Fecvip-» ip src); // 获 得 响应 数据 包 下 头 的 源 地 址 
DstIP- inet ntoa (Recvip-> ip dst); // 获 得 响应 数据 包 1e 3E B ñ HE 


in LocalhostIP.s actir- IocalHostTP; 
localIP- inet ntoa (in LocalhostIP); // 获 得 本 机 下 地 址 


/ 淹 断 该 数据 包 的 源 地 址 是 否 等 于 被 测 主 机 的 下 地 址 ,目的 地 址 是 否 等 于 


// 本 机 IP 地 址 ,IQP 头 的 type 字 段 是 否 为 IOMP ECHOREPLY 
if (SrcIP==HostIP && DstIP==IocalIP && 
Recviam-» iam type-- IOMP ECHCFEPLY) 

{ /ing 成 功 ,退出 循环 } 
H 
// 获 得 当前 时 刻 , 判 断 等 待 相应 时 间 是 否 超过 3 秒 , 若 是 , 则 退出 等 待 
gettimeofday (&TpEnd, NULL) ; 

TimeUse- (1000000* (TrEnd.tv sec- TpStart.tv sec)* 

(TpEnd.tv usec- TpStart.tv usec))/1000000.0; 
if(TimeUse« 3) 


} while(true); 
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如 图 8-2 所 示 ,Ping 函数 的 流程 可 分 为 以 下 8 个 步骤 : 

(1) 为 Ping 程序 创建 原始 套 接 字 (SOCK_RAW)PingSock。 

(2) 调用 函数 setsockopt, 设 置 套 接 字 选项 ,使 其 能 够 重新 构造 IP 数据 报头 部 。 

G) 创建 ICMP 请 求 数据 包 。 该 数据 包 由 3 部 分 组 成 : IP k ICMP 头 以 及 数据 字段 。 
在 本 程序 中 以 当前 的 时 间作 为 数据 字段 的 内 容 。 

(4) 设置 套 接 字 PingSock 的 目标 主机 地 址 。 

(5) 调用 sendto 函数 ,发 送 ICMP 请 求 数据 包 。 

(6) 调用 函数 fcntl 将 套 接 字 设置 为 非 阻塞 模式 。 

(7) 调用 函数 recvfrom ,循环 等 待 接收 ICMP 响应 数据 包 。 如 果 接 收 到 一 个 数据 包 , 判 
Wi a) 源 地 址 是 否 等 于 目标 主机 的 IP 地 址 ,b) 目 的 地 址 是 否 等 于 本 机 的 IP 地址 ,c)ICMP 头 
的 type 字段 是 否 为 ICMP_ECHOREPLY。 若 上 述 3 个 条 件 均 满足 , 则 表示 成 功 接 收 到 目 
标 主机 发 来 的 ICMP 响应 数据 包 ,Ping 函数 返回 true; 否 则 ,继续 等 待 ,直到 超时 退出 。 


开始 


创建 原始 套 接 字 Raw Socket 


1 
设置 套 接 字 选 项 
i 
填充 ICMP 请 求 数据 包 


设置 套 接 字 发 送 地 址 


调用 sendto 函数 , 发 送 ICMP 请 求 数据 包 


1 
设置 套 接 字 为 非 阻塞 模式 


-= 


调用 recvfrom 函数 , 接收 数据 包 


判断 接收 的 数据 
包 是 否 为 ICMP 响 应 ? 
N 


8-2 Ping 函数 流程 图 
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(8) 如 果 循 环 等 待 时 间 超 过 3 秒 , 则 退出 等 待 ,Ping 函数 返回 false, 


3 


. TCP Connect 扫描 


TCP Connect 扫描 是 通过 调用 流 套 接 字 (SOCK_STREAM) 的 connect 函数 实现 的 。 
该 函数 尝试 连接 被 测 主 机 的 指定 端口 , 若 连 接 成 功 , 则 表示 端口 开启 ;否则 ,表示 端口 关闭 。 
在 编程 中 为 了 提高 效率 ,采用 创建 子 线程 同时 扫描 目标 主机 多 个 端口 的 方法 。 线 程 函 数 的 
部 分 代码 如 下 : 


void* Thread TCPconnectHost (void * param) 


t 


// 变 量 定义 

// 获 得 目标 主机 的 他 地 址 和 扫描 端口 号 
P= (struct TCFConHostThrParsm* param; 
HostIP-p-» HostIP; 
HostPort- p-» HostPort; 


// 创 建 流 套 接 字 
Consock= socket (AF_INET, SOCK_STRFAM, 0); 


// 设 置 连 接 主机 地 址 

memset (sHostAddr, 0, sizeof (HostAddr) ); 
Hosthddr.sin family-AF INET; 
Hosthddr.sin addr.s addr- inet acdr(sHostIP[0]); 
HostAddr.sin port- htons (HostPort) ; 


//connect. 目标 主机 

ret- connect (ConSock, (struct sockaddr * ) &HostActir, sizeof (HostAddr) ) ; 
if(ret--- 1) 

{ // 连 接 失 败 , 端 口 关闭 } 

else 

{ // 连 接 成 功 ,端口 开启 } 


// 退 出 线程 
close (ConSock) ; /人 关闭 套 接 字 


// 子 线程 数 减 1 
pthread mutex lock(&TCEConScanlocker); 


void* Thread TCPconnectScan (void * param) 


t 


// 变 量 定义 
// 获 得 扫描 的 目标 主机 下 ,起 始 端 口 及 终止 端口 


i 
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P= (struct TCEConThrParamx )param; 
HostIP- p-» HostIP; 

BeginPort-p-» BeginPort; 
EndPort-p-» EndFort; 


TCECorhrcNam- 0; // 将 线程 数 设 为 0 
// 开 始 从 起 始 端口 到 终止 端口 循环 扫描 目标 主机 的 端口 
for (TemcPort- BeginPort;TempPort« = EndPort;TemcPortt + ) 
t 
// 设 置 子 线程 参数 
TCEConHost-hrParam* pOonHostParam- new TCEConHostThrParamy 
EConHoetParam > HostIP= HostIP; 
pOorHostParam-» HostPort- TemcPort; 


/将 子 线程 设 为 分 离 状态 
pthread attr init (sattr); 
pthread attr setdetachstate(&attr,PTHREAD CREATE DETACHED); 


// 创 建 conect 目标 主机 指定 的 端口 子 线程 
ret= Pthread create (&subIhreadID, gattr, Thread TCPoonnectHost, 


poonHostParam) ; 
IREE 1 
pthread mutex lock(sTCFConscanlocker); 
"TCEConfhrdNant  ; 


pthread mutex unlock (&TCPConScanlocker) ; 
// 如 果子 线程 数 大 于 100, 暂 时 休眠 
while (TCECorThrdNan 100) 
(sleep); } 

) 


// 等 待 子 线程 数 为 0 返回 
while (ICEConThrdNun!- 0) 
(sleep); ) 

// 返 回 主流 程 
pthreed exit (NULL); 


上 述 代码 中 包含 两 个 线程 函数 : Thread TCPconnectScan 和 Thread TCPconnectHost, 3X 
两 个 函数 共同 完成 TCP Connect 的 扫描 工作 。 其 中 Thread_TCPconnectScan 是 扫描 的 主 
线程 函数 ,该 函数 在 扫描 器 的 主流 程 中 被 调用 ,用 于 遍历 目标 主机 的 端口 ,创建 负责 扫描 某 
一 固定 端口 的 子 线程 。 而 连接 (connect) 目标 主机 指定 端口 的 工作 由 线程 函数 Thread _ 
TCPconnectHost 来 完成 。 端 口 扫 描 器 主流 程 .函数 Thread_TCPconnectScan 和 函数 
Thread_TCPconnectHost 3 者 之 间 的 关系 如 图 8-3 所 示 。 为 了 维护 系统 中 的 线程 数目 ,使 
用 变量 TCPConThrdNum 来 记录 已 经 创建 的 子 线程 数 。 在 函数 Thread_TCPconnectScan 


B 
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中 ,每 创建 一 个 连接 指定 端口 的 子 线程 ,就 将 TCPConThrdNum 加 1; 而 在 函数 Thread _ 
TCPconnectHost 退出 当前 线程 之 前 ,将 TCPConThrdNum 减 1。 若 子 线程 数 大 于 100, 线 
F£ Thread TCPconnectScan 就 会 暂时 休眠 ,等 待 子 线程 数 降低 后 再 继续 工作 。 当 子 线 程 数 
等 于 0 时 ,表示 所 有 的 子 线程 都 已 经 返回 ,线程 Thread_TCPconnectScan 就 返回 程序 的 主 
流程 。 为 了 保证 多 个 不 同 线程 对 子 线程 数 TCPConThrdNum 的 互 斥 访问 ,在 修改 
TCPConThrdNum 之 前 需要 加 互 斥 锁 TCPConScanlocker. 修改 完毕 后 再 解锁 。 这 样 就 保 
证 了 TCPConThrdNum 的 正确 性 。 


r 5 
端口 扫描 器 主流 程 B: 
返回 q 

线程 函数 Thread_TCPconnectScan 

i ^ 调用 


返回 
线程 函数 Thread_TCPconnectHost 


图 8-3 主流 程 Thread_TCPconnectScan 和 Thread_TCPconnectHost 之 间 的 关系 示意 图 


线程 函数 Thread_TCPconnectHost 是 整个 TCP Connect 扫描 的 核心 部 分 。 线 程 函 数 
Thread_TCPconnectScan 通过 调用 它 来 创建 连接 目标 主机 指定 端口 的 子 线程 。 函 数 
Thread_TCPconnectHost 的 工作 流程 如 下 : 

(1) 获得 线程 函数 Thread_TCPconnectScan 传 来 的 目标 主机 的 IP 地 址 和 扫描 端口 号 。 

(2) 创建 流 套 接 字 ConSock。 

(3) 设置 连接 目标 主机 的 套 接 字 地 址 HostAddr。 

(4) 调用 connect 函数 连接 目标 主机 。 若 函数 返回 一 1, 则 表示 连接 失败 ;和 否则 ,表示 连 
接 成 功 。 

(5) 关闭 套 接 字 ConSock , 子 线程 数 TCPConThrdNum 减 1, 退出 线程 。 

4. TCP SYN 扫描 


本 章 要 求 通过 原始 套 接 字 (SOCK_RAW) 来 实现 TCP SYN 扫描 。 原 始 套 接 字 人 允许 程 
序 员 构造 数据 包 的 IP 头 字段 和 TCP 头 字段 。 虽 然 Windows XP 系统 出 于 安全 的 原因 禁止 
原始 套 接 字 发 送 数据 ,但 是 在 Linux 网 络 编程 中 , 它 还 是 带 来 了 很 多 方便 。 

和 TCP Connect 扫描 一 样 ,TCP SYN 扫描 也 包含 两 个 线程 函数 : Thread_TCPSynScan 和 
Thread TCPSYNHost, Thread TCPSynScan 是 主线 程 函 数 , 负 责 遍 历 目标 主机 的 被 测 端 
口 ,并 调用 Thread TCPSYNHost 函数 创建 多 个 扫描 子 线程 。Thread_TCPSYNHost PA 8 
用 于 完成 对 目标 主机 指定 端口 的 TCP SYN 扫描 。 这 两 个 函数 的 部 分 代码 如 下 : 


Void* Thread TCPSYNHost (void* param) 

t 
// 变 量 定义 
// 获 得 目标 主机 的 下 地 址 和 扫描 端口 号 ,以 及 本 机 的 下 地 址 和 端口 
P= (struct TCESYNHostThrParam* )param; 
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// 设 置 cp SW 扫描 的 套 接 字 地 址 
memset (&SYNScanHostAddr, 0, sizeof (SYNScanHostAddr) ) ; 
SYNScantostAddr.sin family-AF INET; 
SYNScanHostAdr.sin addr.s addr= inet adr (sHostIP[0]); 
SyNScanHostAcr.sin port- htons (HostFort) ; 


// 创 建 套 接 字 
SynSock-socket(PF INET，SOCK RAW, IPPROIO TCP); 


// 填 充 nce SA 数据 包 
struct pseudchdr * ptcrt= (struct pseudohdr * )sendouf; 
struct tcphdr* tcrh= (struct tcrhdr * ) (sendbuf* sizeof (struct pseudchar) ) ; 


// 填 充 TcCP 伪 头 部 ,用 于 计算 校 验 和 
ptcrh-> sactir= LocalHostIP; 

Ptcrh-> dactir- inet addr (SHostIP[0]) ; 
ptcph-» useless- 0; 

ptarh-» protocol= IPFFOTO TCP; 

ptcrh-> length- htons (sizeof (struct tcrhdr)); 


// 填 充 Tek 

taph-> th. sport- htons (LocalPort); 

tagh-» th. dport- htons (HostFort) ; 

tah-» th. seq htonl (123456) ; 

toph-> th ack- 0; 

tcrh-> th x2= 0; 

taph-» th. off- 5; 

tcph-» th flags-TH SYN; //mcP 头 flags E Et BJ SN 位 置 1 
tcgh-> th win- htons (65535) ; 

teph-» th sum- 0; 

tcph-» th urp- 0; 

tcph-» th sue in cksun((unsigned short * )ptcph, 20-12); 


// 发 送 Te SIN 数据 包 
len-sendto(SynSock, tcph, 20, 0, (struct sockaddr * )&SYNScanHostActir, 
sizeof (SYNScanBost2ckir) ) ; 


// 接 收 目标 主机 的 TcP 响 应 数据 包 
len-read(SynSock, recybuf, 8192); 
if(len«-0) 

{ // 接 收 错误 } 

else 
row 
// 判 断 响应 数据 包 的 源 地 址 是 否 等 于 目标 主机 地 址 ,目的 地 址 是 否 等 于 本 机 
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// 焉 地址, 源 端口 是 否 等 于 被 扫描 端口 ,目的 端口 是 否 等 于 本 机 端口 号 
if(HostIP-— SrcIP && LocalIP-— DstIP && SrcPort-—HostPort && 
DstPort--LocalPort) 


if (tah->th flags-- 0x14) ARESA siNIAXK 数 据 包 
{ // 端 口 开启 1 

if (tcph-»th flags==0x12) / PB E: 6 3 ST 数据 包 

{ // 端 口 关 闭 1} 


// 退 出 子 线程 
delete p; 
close (SynSock) ; 


pthread mutex lock(sTCPSynScanlocker) ; 
TCPSyrfhrdNan- - ; 
pthread mutex unlock (&ICPSynScanlocker) ; 


// 变 量 定义 
/人 获得 目标 主机 的 下 地 址 和 扫描 的 起 始 端 口号 终止 端口 号 以 及 本 机 的 王 地 址 
P= (struct TCPSYNIhrParam* )param; 


// 循 环 遍历 扫描 端口 
'ICPSynThrcNum= 0; 
LocalPort= 1004; 


for (TempPort- BeginFort;TempPort« = EndPort; TempPort* + ) 

t 
// 设 置 子 线程 参数 
struct TCPSYNHostIhrParam* pICPSYNHostParam- new TCPSYNHostTIhrParam; 
EICPSYNHostParam > HostIP= Host IP; 
pICPSYNHostParem-» HostPort- TempPort; 
pICESYNHostParem-» LocalPort- TempFort* LocalPort; 
plICESYNHostParam-» LocalHostIP- LocalHostIP; 


// 将 子 线程 设置 为 分 离 状 态 
pthread attr init(sattr); 
pthread attr setdetachstate (&attr,PTHREAD CREATE DETACHED); 


// 创 建 子 线程 
ret-pthread create (&sibThreadID, &attr, Thread TCPSYNHost, 
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// 子 线程 数 加 1 
pthread mitex lock(&ICPSynScanlocker) ; 
TCPSyrThraNum* + ; 
pthread mutex unlock(&TCPSynScanlocker) ; 
// 子 线程 数 大 于 100, 休 眼 
while (TCPSynThrdNum 100) 
{ slep(3; } 
} 
// 等 待 所 有 子 线程 返回 
while (TCPSynhrdNun!- 0) 
( slep(); } 
// 返 回 主流 程 
pthread exit (NULL); 

+ 

线程 函数 Thread. TCPSYNHost 是 整个 TCP SYN 扫描 的 核心 部 分 。 线 程 函数 
Thread_TCPSynScan 通过 调用 它 来 创建 子 线程 ,向 目标 主机 的 指定 端口 发 送 SYN 数据 包 ， 
并 根据 目标 主机 的 响应 判断 端口 的 状态 。 函 数 Thread_TCPSYNHost 的 工作 流程 如 图 8-4 
所 示 。 

(1) 获得 线程 函数 Thread_TCPSynScan 传 来 的 参数 ,其 中 包括 目标 主机 TP 地 址 ,扫描 
端口 号 以 及 本 机 IP 地 址 和 端口 号 。 

(2) 设置 TCP SYN 扫描 的 套 接 字 地 址 。 

(3) 创建 原始 套 接 字 SynSock。 

(4) 填充 TCP SYN 数据 包 。 注 意 将 TCP 头 flags 字段 的 SYN 位 设置 为 1 。 

(5) 调用 sendto 函数 向 目标 主机 的 指定 端口 发 送 TCP SYN 数据 包 。 

(6) 调用 read 函数 接收 目标 主机 的 TCP 响应 数据 包 。 若 函数 的 返回 值 小 于 0, 则 接收 
错误 ;否则 ,继续 判断 响应 数据 包 的 地 址 是 否 有 误 。 如 果 响 应 数据 包 的 a) 源 地 址 等 于 目标 
主机 地 址 ,b) 目 的 地 址 等 于 本 机 的 IP 地 址 ,c) 源 端口 号 等 于 被 扫描 端口 号 ,d) 目的 端口 号 等 
于 本 机 端口 号 ,那么 该 数据 包 就 是 目标 主机 被 扫描 端口 返回 的 响应 数据 包 。 若 该 数据 包 
flags 字段 的 ACK 和 SYN 位 均 置 1, 则 表示 被 扫描 端口 开启 。 若 flags 字段 的 RST 位 置 1， 
则 表示 被 扫描 端口 关闭 。 

(7) 关闭 套 接 字 ConSock , 子 线程 数 TCPSynThrdNum 减 1, 退 出 线程 。 

需要 注意 的 是 ,在 填充 TCP SYN 数据 包 的 过 程 中 调用 了 函数 in_cksum 计算 校 验 和 。 
该 函数 将 TCP 伪 头 部 (12 字 节 ) ,TCP 报头 (20 字 节 ) 以 及 应 用 层 数 据 (程序 中 为 0 字 节 ) 合 
在 一 起 作为 输入 数据 ,将 它们 按 16 位 进行 分 组 计算 校 验 和 。 同 理 , 在 填充 TCP FIN 数据 包 
和 UDP 数据 包 时 ,也 需要 利用 函数 in_cksum 计算 校 验 和 ,只 是 输入 的 数据 略 有 不 同 。 函 
数 in_cksum 的 代码 如 下 : 

unsigned short in cksum(unsigned short * ptr, int nbytes) 

$ 
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开始 


获得 耳 地 址 和 端口 号 
设置 TCP SYN — 
— SynSock 
填充 TCP x” 数据 包 


调用 sendto 函数 发 送 
TCP SYN 数据 包 
i 


调用 read 函数 接收 TCP 响应 数据 包 


是 否 成 功 接收 ? 


响应 数据 包 的 IP 地 址 
和 端口 号 是 否 正确 ? 


oddbyte- 0; 
* ((u charx ) &oddbyte)- * (u char* )ptr; 
sum = ocdbyte; 

) 

sume (sum>> 16)+ (sum & 0xffff); 
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sumt— (sun? 16); 
answer- ~ sum; 
retum (answer); 


) 


5. TCP FIN 扫描 


TCP FIN 扫描 的 代码 与 TCP SYN 扫描 的 代码 基本 相同 。 两 者 都 利用 原始 套 接 字 构 
造 TCP 数据 包 发 送 给 目标 主机 的 被 测 端口 。 不 同 之 处 在 于 将 TCP 头 flags 字段 的 FIN 位 
置 1。 另 外 在 接收 TCP 响应 数据 包 时 也 略 有 不 同 。 和 前 面 两 种 扫描 一 样 ,TCP FIN 扫描 也 
包括 两 个 线程 函数 。 它 们 分 别 是 Thread_TCPFinScan 和 Thread_TCPFINHost。 线 程 函 
数 Thread TCPFinScan 负责 遍历 端口 号 ,创建 TCP FIN 扫描 子 线程 。 它 的 流程 与 TCP 
SYN 扫描 相同 。 线 程 函数 Thread TCPFINHost 的 部 分 代码 如 下 : 


void* Thread TCPFINHost (void* param) 
{ 
4------------ 与 ee SN His ----------------- 


// 填 充 TcP FIN 数 据 包 
tcph-» th flags= TH FIN; //1CP 3k flags SE BER PN 位 置 1 
/人 发送 TcP FIN 数 据 包 


/将 套 接 字 设 置 为 非 阻塞 模式 
if (fontl (FinRevSock, F SETFL, O NONBIOCK)==-1) 


// 接 收 TcP 响 应 数据 包 循环 
gettimeofday (gTpStart, NULL) ; // 获 得 开始 接收 时 刻 
do 
t 
// 调 用 recvfrom 函 数 接收 数据 包 
len- recvfram(FinRevSock, recvbuf, sizeof (recvbuf) ,0, 
(struct sockaddr * )&Framdir, (socklen t * )&Framkirlen); 
if(len» 0) 
t 
SrcIP-inet ntoa(Framkdir.sin addr); 
if(SrcIP-- HostIP) // 响 应 数据 包 的 源 地 址 等 于 目标 主机 地 址 
{ 


// 判 断 响应 数据 包 的 源 地 址 是 否 等 于 目标 主机 地 址 ,目的 地 址 是 

// 香 等 于 本 机 下 地 址 , 源 端口 是 否 等 于 被 扫描 端口 ,目的 端口 是 

// 否 等 于 本 机 端口 号 

if (HostIP== SrcIP && LocalIP-— DstIP && SrcPort-— HostPort && 
DstPort-—IccalPort) 
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if (tcrh->th flags-- 0x14) /判断 是 否 为 ST 数据 包 
Do 
break; 
) 
) 
) 
} 
/ 淹 断 等 待 响应 数据 包 的 时 间 是 否 超过 了 3 秒 ? 
gettimeofday (&TcEnd, NULL) ; 
TimeUse- (1000000 * (IrEnd.tv sec- TpStart.tv sec) 
(IcEnd.tv usec- TpStart.tv usec))/1000000.0; 
if (TimeUse« 3) 
continue; 
else 
t 
// 起 时 ,扫描 端口 开启 


线程 函数 Thread TCPFINHost 的 流程 与 线程 函数 Thread. TCPSYNHost 基本 相同 。 
在 填充 TCP FIN 数据 包 的 时 候 ,注意 将 TCP 头 的 flags 字段 的 FIN 位 设置 为 1。 调 用 
sendto 因数 发 送 完 数 据 包 之 后 ,将 套 接 字 FinRevSock 设置 为 非 阻 塞 模式 。 这 样 recvfrom 
函数 就 不 会 一 直 阻 塞 ,直到 接收 到 一 个 数据 包 为 止 ,而 是 通过 一 个 外 部 循环 控制 等 待 响应 数 
据 包 的 时 间 。 如 果 超 时 , 则 退出 循环 。 在 收 到 一 个 数据 包 以 后 ,如 果 该 数据 包 的 a) 源 地 址 
等 于 目标 主机 地 址 ,b) 目 的 地 址 等 于 本 机 IP 地 址 ,c) 源 端口 号 等 于 被 扫描 端口 号 ,d) 目的 端 
口号 等 于 本 机 端口 号 , 则 该 数据 包 为 响应 数据 包 。 如 果 该 数据 包 TCP 头 的 flags 字段 的 
RST 位 为 1, 则 表示 被 扫描 端口 关闭 ;否则 ,继续 等 待 响应 数据 包 。 如 果 等 待 时 间 超 过 3 秒 ， 
则 认为 被 扫描 端口 是 开启 的 。 


6. UDP 扫描 


在 本 章 中 ,UDP 扫描 是 通过 线程 函数 Thread_UDPScan 和 普通 函数 UDPScanHost 实 
现 的 。 与 前 面 介 绍 的 TCP 扫描 不 同 ,UDP 扫描 没有 采用 创建 多 个 子 线程 同时 扫描 多 个 端 
口 的 方式 。 这 是 因为 目标 主机 返回 的 ICMP 不 可 达 数 据 包 没有 包含 目标 主机 的 源 端口 号 ， 
扫描 器 无 法 判断 ICMP 响应 是 从 哪个 端口 发 出 的 。 因 此 ,如 果 让 多 个 子 线 程 同 时 扫描 端口 ， 
会 造成 无 法 区 分 ICMP 响应 数据 包 与 其 对 应 端口 的 情况 。 这 样 ,判断 被 扫描 端口 是 开启 还 
是 关闭 就 显得 毫 无 意义 了 。 为 了 保证 扫描 的 准确 性 ,必须 牺牲 程序 的 运行 效率 ,逐次 地 扫描 
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目标 主机 的 被 测 端口 。 

与 前 面 介绍 的 TCP 扫描 一 样 ,线程 函数 Thread_UDPScan 负责 遍历 目标 主机 端口 , 调 
用 函数 UDPScanHost 对 指定 端口 进行 扫描 ,在 从 起 始 端口 (BeginPort) 到 终止 端口 
(EndPort) 的 遍历 中 ,逐次 对 当前 端口 (TempPort) 进行 UDP 扫描 。 线程 函 数 Thread - 
UDPScan 的 部 分 代码 如 下 : 

void* Thread UDPScan (void * param) 

I 


JAANO ,逐次 扫描 
for (TempFort= BeginPort; TempPort< = EndPort; TempPortt + ) 
t 
UDPScanHost (pUDPScanHostParam) ; 
) 


) 


函数 UDPScanHost 是 UDP 扫描 的 核心 部 分 , 它 负责 向 被 测 端 口 发 送 UDP 数据 包 , 并 
等 待 接收 ICMP 响应 数据 包 。 在 发 送 UDP 数据 包 时 可 以 采用 两 种 方法 ; 一 种 是 创建 数据 
报 套 接 字 (SOCK_DGRAM) 并 调用 sendto 函数 发 送 UDP 数据 包 ; 另 一 种 是 利用 原始 套 接 
字 (SOCK_RAW) 构 造 一 个 UDP 数据 包 , 然 后 再 调用 sendto 函数 将 该 数据 包 发 送 给 被 测 端 
口 。 本 程序 采用 的 是 第 2 种 方法 ,部 分 代码 如 下 : 


void UDPScanHost (struct UDPScanHostThrParam* p) 
t 

// 变 量 定义 

/获得 目标 主机 1p JURE 


// 创 建 套 接 字 UDPSock 
UDPSock= socket (AF_INET, SOCK RAW,IPFROTO ICMP); 


// 设 置 套 接 字 UDPSock 选 项 
ret- setsockopt (UDPSock, IPFROTO IP,IP HIRINCL, &on, sizeof (on) ) ; 


// 设 置 UDP 套 接 字 地 址 

memset (sUDEScanHostAckir, 0, sizeof (UDPScanHostAddr) ) ; 
UDEScanHostAddr.sin family-AF INET; 
UDEScanHostAddr.sin ackir.s acdth= inet addr (&HostIP[0]); 
UDEScanHostAdkr.sin port= htons (HostPort) ; 


// 慎 充 UDP 数据 包 

memset (packet, 0x00, sizeof(packet)); 

ip= (struct iphdr* )packet; 

ug (struct uckhdir * ) (packet sizeof (struct iphdr)); 

pane (struct ps=urkhdir * ) (packet sizeof (struct ipghdr)- sizeof (struct pə=urthdr)) ; 
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// 填 充 UDP 头 

udp-» scuroe- htons (LocalPort); 

udp-> dest- htons (HostPort) ; 

udp-» len- htons (sizeof (struct uckhar)) ; 
udp-» dheck- 0; 


// 填 充 UDP 伪 头 部 ,用 于 计算 校 验 和 
pseudo-» saddr= LocalHostIP; 
pseudo-» daddr- inet addr(&HostIP[0]) ; 
pseudo-» useless- 0; 
pseudo» protocol= IPFROTO UDP; 
pseudo-» length- udo-» len; 
udp-> check-in cksum ((u short * )pseudo, 
sizeof (struct udphadr)* sizeof (struct pseudchar) ) ; 


/| 填充 1e 3k 

ip-»ihl-5; 

ip-» version- 4; 

ip-» tos- 0x10; 

ip-»tot len- sizeof (packet); 
ip-» frag off-0; 

ip-»ttl- 69; 

áp-» protocol= IPEROTO UDP; 
ip-» check= 0; 

ip-» saddr- LocalHostIP; 

ip-» daddr- inet addr (&HostIP[0]) ; 


/发送 UDP 数据 包 
n= sendto(UDPSock, packet, ip-» tot len, 0, 


(struct sockaddr * )&UDPScanHostAddr, sizeof (UDPScanHostAddr)) ; 


// 设 置 套 接 字 UDPsock 为 非 阻塞 模式 
if(fcntl(UDPSock, F SETEL, O NONBLOCK)-— - 1) 


// 接 收 IMP 相应 数据 包 循环 


gettimeofday (gTpStart, NULL) ; // 获 得 接收 起 始 时 间 
do 
{ 

// 接 收 Ia 数据 包 

n-read(UDESock, (struct ipiamphdr* )&hdr, sizeof (hdr)); 

if(n>0) 


{ 
JAR Ia 数据 包 的 源 地 址 是 否 等 于 目标 主机 地 址 ,code 字段 和 
//type 字 段 的 值 是 否 是 3 
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if((hdr.ip.saddr-- inet addr(sHostIP[0])) && (hdr.iamp.code==3) && 
(bar.iam.type-- 3) 
t 
/upP 端 口 关 闭 
break; 
} 
} 
// 淹 断 等 待 时 间 是 否 超过 了 3 秒 
gettimeofday (&TpEnd, NULL) ; 
TimeUse- (1000000* (TrEnd.tv sec- TpStart.tv sec)+ 
(TpEnd.tv usec- TpStart.tv usec))/1000000.0; 
if (TimeUse< 3) 
continue; 
else 
t 
/De 端口 开启 
break; 
} 
} while (true); 


ESSE 
close (UDESock) ; 
delete p; 
) 
如 图 8-5 Bros . UDPScanHost 函数 的 流程 分 为 8 个 步骤 。 
(1) 获得 目标 主机 TP 地 址 ,扫描 端口 号 以 及 本 机 IP 地 址 和 端口 号 。 
(2) 创建 原始 套 接 字 UDPSock。 
(3) 设置 套 接 字 UDPSock 的 选项 。 
(4) 设置 UDP 扫描 的 套 接 字 地 址 。 
G) 填充 UDP 数据 包 。 注 意 在 填充 校 验 和 字段 时 ,需要 调用 函数 in_cksum 进行 计算 。 
(6) 调用 sendto 函数 向 目标 主机 的 指定 端口 发 送 UDP 数据 包 。 
(7) 调用 read 函数 接收 目标 主机 的 ICMP 响应 数据 包 。 若 函数 的 返回 值 大 于 0, 则 成 
功 接收 一 个 数据 包 。 如 果 该 响应 数据 包 的 源 地 址 等 于 目标 主机 地 址 ,code 字段 和 type 字段 
的 值 都 为 3, 则 该 数据 包 就 是 目标 主机 被 扫描 端口 返回 的 ICMP 不 可 达 数 据 包 。 因 此 ,可 以 
认为 被 扫描 的 UDP 端口 是 关闭 的 。 若 接收 时 间 超过 3 秒 , 则 认为 被 扫描 的 UDP 端口 开 
启 , 退 出 循环 。 
(8) 关闭 套 接 字 UDPSock, 返 回 。 


7. 编写 makefile 文件 


本 程序 包含 多 个 . cpp 文件 ,在 编译 和 链接 时 , 逐 行 地 输入 重复 命令 会 显得 十 分 烦琐 。 
EAE BL ,就 会 产生 错误 。 为 了 解决 这 个 问题 ,我 们 可 以 在 这 些 代 码 文件 的 同一 目录 下 创建 
一 个 makefile 文件 ,每 次 编译 时 ,只 需 在 Shell 命令 行 中 输入 make 命令 即 可 。 本 程序 的 
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开始 


获得 IP 地 址 和 端口 号 


i 
创建 原始 套 接 字 UDPSock 


f 


设置 套 接 字 UDPSock 选 项 


i 


设置 UDP 扫描 的 套 接 字 地 址 


填充 Au 数据 包 


调用 sendto 函数 发 送 
UDP 数据 包 


m1 


调用 read 函数 接收 ICMP 响应 数据 包 


是 否 成 功 接收 ? 


图 8-5 函数 UDPScanHost 的 流程 图 


makefile 文件 内 容 如 下 所 示 。 由 于 在 本 程序 中 使 用 了 多 线程 编程 技术 ,所 以 在 最 后 链接 生 
成 可 执行 代码 时 应 该 加 上 参数 -lpthread 才能 通过 。 在 makefile 文件 中 还 使 用 了 make 
clean 命令 对 中 间 生 成 的 文件 进行 必要 清理 ,以 方便 下 一 次 编译 。 只 需 在 Shell 命令 行 中 输 
入 make clean 就 可 以 删除 在 编译 链接 时 生成 的 文件 。 


Scaner:Scaner.o TCEConnectScan.o TCPSYNScan.o TCPFINScan.o UDEScan.o 
gt +- lpthead o Scaner Scaner.o TCEOonnectScan.o TCPSYNScan.o TCEFTNScan.o UDPScan.o 
Scaner.o:Scaner.cpp 
gt+- c Scaner.crp 
TICEConnectScan.o:'TCEOonnectScan.qpp 
gt +- c TCPConnectscan.aqpp 
TCPSYNScan.o:TCPSYNScan.cpp 


g++- c TCPSYNScan.crp 
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'TICPFINScan.o:TCPFINScan.crp 

g++- c TCPFINScan.crp 
UDPScan.o:UDPScan.cpp 

g+ + c UDPScan.crp 
clean: 

m Scaner 

m Scaner.o 

Im TCFConnectScan.o 

Im TCPSYNScan.o 

Im TCPFINScan.o 

1m UDPScan.o 


8.4 扩展 与 提高 


8.4.1 ICMP 扫描 扩展 


ICMP 扫描 就 是 利用 8. 2. 1 小 节 介绍 的 ping 程序 判断 目标 主机 是 否 可 达 。 但 是 这 种 
传统 的 ICMP 扫描 方式 容易 被 防火 墙 过 滤 。 如 何 才能 绕 开 防火 墙 探测 它 后 面 的 主机 呢 ? 
ICMP 扩展 扫描 方式 就 做 到 了 这 一 点 。 

ICMP 扩展 扫描 利用 了 ICMP 协议 最 基本 的 用 途 一 一 报错 。 根据 TCP/IP 协议 ,如 果 
在 通信 过 程 中 出 现 错误 , 则 接收 端 将 产生 一 个 ICMP 的 错误 报 文 ,用 来 通告 发 送 端 错误 的 相 
关 信 息 。 这 些 错误 报 文 是 根据 ICMP 协议 要 求 由 探测 系统 自动 产生 的 ,一 般 不 会 被 防火 墙 
拦截 。 这 也 是 黑客 常用 的 手段 ,了 解 它 对 于 修复 安全 漏洞 非常 有 益 。 

下 面 列举 出 ICMP 扩展 扫描 的 4 种 实现 方式 : 

CD 向 目标 主机 发 送 一 个 只 有 IP AH IP. 数据 报 ,目标 主机 将 返回 Destination 
Unreachable 的 ICMP 错误 报 文 。 

(2) 向 目标 主机 发 送 一 个 错误 的 IP 数据 报 , 比 如 ,IP 头 长 度 错误 。 目 标 主 机 将 返回 
Parameter Problem 的 ICMP 错误 报 文 。 

(3) 当 数 据 报 分 片 ,但 是 却 没有 给 接收 端 足够 的 分 片 时 ,接收 端 分 片 组 装 超时 会 发 送 分 
片 组 装 超时 的 ICMP 错误 报 文 。 

(4) 向 目标 主机 发 送 一 个 IP 数据 报 , 但 是 协议 项 是 错误 的 ,比如 协议 项 不 可 用 , 则 目标 
将 返回 Destination Unreachable 的 ICMP 错误 报 文 。 

此 外 ,扩展 ICMP 扫描 还 有 两 种 其 他 的 功能 : 

CD 探测 防火 墙 的 存在 : 将 数据 包 的 IP 头 协议 字段 填 入 一 个 至 今 无 人 使 用 的 较 大 的 
值 ,向 确定 存在 的 主机 发 送 该 数据 包 , 若 收 不 到 响应 , 则 说 明 目 标 主机 有 防火 墙 保 护 。 

(2) 探测 目的 主机 运行 协议 : 因为 IP 头 协议 字段 的 长 度 为 8 位 ,所 以 只 有 256 种 协议 
的 可 能 。 遍 历 这 256 种 可 能 的 协议 ,探测 目标 主机 , 便 可 穷 举 出 目标 主机 当前 运行 的 协议 。 


8.4.2 TCP 扫描 扩展 


在 8.2. 2 小 节 介绍 的 TCP FIN 扫描 属于 秘密 扫描 的 一 种 ,所 谓 秘密 扫描 就 是 在 扫描 过 
程 中 完全 不 涉及 TCP 连接 建立 过 程 ,确保 系统 不 会 记录 任何 日 志 的 扫描 技术 。 
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1. 理论 基础 


(1) 当 一 个 SYN 或 者 FIN 数据 包 到 达 一 个 关闭 的 端口 时 ,根据 TCP 协议 ,该 端口 在 丢 
弃 数 据 包 的 同时 ,会 发 送 一 个 RST 数据 包 。 

(2) 当 一 个 RST 数据 包 到 达 一 个 监听 端口 时 ,RST 数据 包 会 被 丢弃 。 

G) 当 一 个 RST 数据 包 到 达 一 个 关闭 端口 时 ,RST 数据 包 会 被 丢弃 。 

(4) 当 一 个 包含 ACK 的 数据 包 到 达 一 个 监听 端口 时 ,数据 包 会 被 丢弃 ,同时 发 送 一 个 
RST 数据 包 。 

G) 当 一 个 SYN 数据 包 到 达 一 个 监听 端口 时 ,正常 的 三 阶段 握手 继续 ,回应 一 个 ACK 
[SYN 数据 包 。 

(6) 当 一 个 FIN 数据 包 到 达 一 个 监听 端口 时 ,数据 包 会 被 丢弃 。 

(7) 当 收 到 URG 和 PSH 标志 位 置 位 的 数据 包 时 ,如 果 端 口 关闭 , 则 返回 RST 数据 包 ; 
否则 监听 端口 将 丢弃 该 数据 包 。 所 有 URG、PSH FIN 标志 位 置 位 或 者 无 任何 标记 的 TCP 
数据 包 都 会 引发 监听 端口 的 丢弃 行为 。 


2. 其 他 扫描 方式 


(1) ACK 扫描 

发 送 一 个 只 有 ACK 标志 的 TCP 数据 包 给 主机 ,如 果 主 机 反馈 一 个 TCP RST 数据 包 ， 
则 这 个 主机 是 存在 的 。 也 可 以 通过 这 种 技术 来 确定 对 方 防火 墙 仅仅 是 简单 的 分 组 过 滤 , 还 
是 基于 状态 的 防火 墙 。 

(2) NULL 扫描 

发 送 一 个 没有 任何 标志 位 的 TCP 数据 包 , 根 据 RFC793, 如 果 目 标 主机 的 相应 端口 是 
关闭 的 , 则 应 该 返回 一 个 RST 数据 包 。 

(3) FIN 十 URG 十 PUSH 扫描 

向 目标 主机 发 送 一 个 FIN.URG 和 PUSH 分 组 ,根据 RFC793 ,如 果 目 标 主机 的 相应 端 
口 是 关闭 的 , 则 应 该 返回 一 个 RST 数据 包 。 

秘密 扫描 虽然 种 类 繁多 ,但 是 大 都 依赖 操作 系统 网 络 协议 栈 的 实现 细节 。 因 此 ,秘密 扫 
描 并 非 对 所 有 操作 系统 有 效 。 针 对 不 同 的 操作 系统 ,只 有 选择 合适 的 扫描 方式 ,才能 达到 预 
期 的 扫描 目标 。 

此 外 ,TCP 扫描 还 有 一 种 扩展 方式 叫做 间接 扫描 , 即 扫描 发 起 主机 冒充 某 台 不 相关 的 
主机 ,以 其 IP 地 址 填充 扫描 所 需 数据 包 的 源 地 址 ,从 而 实现 隐藏 自身 的 目的 。 此 方式 的 原 
理 比较 简单 ,这 里 不 再 袭 述 。 


8.4.3 系统 漏洞 扫描 简介 


漏洞 扫描 最 初 是 以 黑客 攻击 技术 出 现 的 。 黑 客 通过 自己 编写 或 利用 程序 来 检测 待 攻击 
目标 是 否 存在 特定 的 漏洞 ,以 便 发 动 有 效 地 攻击 。 随 着 扫描 技术 的 发 展 和 漏洞 资料 库 的 逐 
步 完善 ,进而 出 现 了 专业 的 安全 评估 工具 一 一 漏洞 扫描 器 。 

漏洞 扫描 器 通常 分 为 主机 型 和 网 络 型 两 大 类 。 主 机 型 漏洞 扫描 有 时 也 称 被 动 扫 描 , 它 
采用 非 破坏 性 的 方法 对 系统 的 文件 属性 ,操作 系统 的 安全 补丁 、 账 户 设置 .服务 配置 以 及 应 
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用 程序 等 进行 安全 检测 。 由 于 是 以 一 定 的 用 户 权 限 进行 检测 的 ,所 以 它 能 够 准确 地 定位 系 
统 的 问题 ,发 现 漏洞 。 网 络 型 漏洞 扫描 器 通过 模拟 黑客 攻击 的 方式 来 进行 安全 漏洞 检测 。 
扫描 器 先 采 用 定制 的 脚本 模拟 攻击 系统 ,然后 对 结果 进行 分 析 , 看 是 否 与 漏洞 库存 储 的 规则 
匹配 。 如 果 匹 配 , 则 说 明 存在 安全 漏洞 。 由 此 可 见 , 扫 描 器 漏洞 资料 库 的 完善 与 否 直接 影响 
扫描 器 对 漏洞 的 检测 能 力 。 

目前 的 漏洞 扫描 产品 大 部 分 都 属于 网 络 型 ,同时 它们 也 吸取 了 主机 型 扫描 器 的 优点 。 
它们 既 可 以 对 网 络 上 的 服务 器 进行 远程 漏洞 检测 ,又 可 以 对 特定 主机 进行 更 深层 次 的 安全 
检测 。 常 见 的 漏洞 扫描 产品 有 SSS.ISS.eEye.RETINA.NAI CYBERCOP 及 Nmap 等 。 

网 络 漏洞 扫描 器 对 目标 系统 进行 漏洞 检测 时 ,首先 探测 目标 系统 的 存活 主机 ,对 存活 主 
机 进行 端口 扫描 ,确定 系统 开放 的 端口 ,同时 根据 协议 指纹 技术 识别 出 主机 的 操作 系统 类 
型 。 然 后 扫描 器 对 开放 的 端口 进行 网 络 服务 类 型 的 识别 ,确定 其 提供 的 网 络 服务 。 漏 洞 扫 
描 器 根据 目标 系统 的 操作 系统 平台 和 提供 的 网 络 服务 ,调用 漏洞 资料 库 中 已 知 的 各 种 漏洞 
进行 逐一 检测 ,通过 对 探测 响应 数据 包 的 分 析 判 断 是 否 存在 漏洞 。 

现 有 的 网 络 漏洞 扫描 器 主要 是 利用 特征 匹配 的 原理 来 识别 各 种 已 知 的 漏洞 的 。 扫 描 器 
发 送 含 有 某 一 漏洞 特征 探测 码 的 数据 包 ,根据 返回 数据 包 中 是 否 含有 该 漏洞 的 响应 特征 码 
来 判断 是 否 存在 漏洞 。 例 如 ,对 于 HS 中 的 Unicode 目录 遍历 漏洞 ,扫描 器 只 要 发 送 含有 特 
HEAR P% c1% 1c 的 探测 包 : http://x. x. x. x/scrlpts/. . % c1% 1c. . / winnt/system32/ 
cmdexe?/c 十 dir, 如 果 应 答 数据 包 中 含有 200 OK 则 可 以 断定 该 漏洞 存在 。 

由 此 可 见 , 漏 洞 扫描 是 一 项 基于 漏洞 数据 库 进 行 特征 比 对 的 扫描 技术 ,在 系统 安全 检测 
方面 具有 广泛 的 应 用 前 景 。 


8.4.4 Linux 环境 中 Nmap 的 安装 与 使 用 


1. Nmap 简介 


网 络 映射 器 (Network mapper, Nmap) 是 一 种 开放 源 代码 的 网 络 探测 和 安全 审计 程序 。 系 
统管 理 员 与 用 户 不 仅 可 以 使 用 Namp 快速 地 扫描 大 型 网 络 , 发 现 网 络 中 运行 的 主机 ,而 且 可 以 
进一步 探测 这 些 主 机 所 能 提供 的 服务 ,操作 系统 的 相关 信息 以 及 报 文 过 滤器 或 防火 墙 的 类 型 
A. 虽然 Nmap 通常 用 于 安全 审计 ,但 是 许多 系统 管理 员 和 网 络 管理 员 也 用 它 来 做 一 些 日 常 
工作 ,比如 查看 整个 网 络 的 信息 ,管理 服务 升级 计划 以 及 监视 主机 和 服务 的 运行 等 。 

Nmap 支持 多 种 协议 的 扫描 ,比如 UDP, TCP connect, TCP SYN (half open), FIN, 
ACK sweep, ICMP (ping sweep) „ftp proxy (bounce attack) , Reverse-ident, Xmas Tree 和 
Null 扫描 。 此 外 ,Nmap 还 提供 了 一 些 高 级 功能 ,例如 通过 TCP/IP 协议 栈 特征 探测 操作 系 
统 类 型 ,秘密 扫描 ,动态 延 时 和 重 传 计算 ,并 行 扫 描 ,通过 并 行 ping 扫描 探测 关闭 的 主机 , 诱 
饵 扫描 , 避 开 端口 过 滤 检 测 ,直接 RPC 扫描 (无 需 端口 映射 ) ,碎片 扫描 以 及 灵活 的 目标 和 端 
口 设 定 。 在 Linux 系统 中 , 非 root 用 户 可 以 利用 Nmap 完成 许多 工作 ,但 是 关键 的 核心 功 
能 (比如 raw socket) 需 要 root 权限 才能 运行 。 


2. Nmap 安装 


许多 操作 系统 都 支持 Nmap 的 安装 ,比如 Linux, Microsoft Windows, Mac OS X, Sun 
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Solaris 及 OpenBSD 等 。 根 据 不 同 的 操 统 ,Nmap 提供 了 多 种 安装 方式 。 其 中 ,将 源 代 
码 进行 编译 并 安装 是 一 种 传统 而 有 效 的 安装 方式 。 下 面 将 介绍 采用 这 种 方式 来 安装 Nmap 
的 过 程 。 
(1) 准备 工作 
如 表 8-2 所 示 , 本 章 选 择 Nmap-4. 85BETA 版 .可 以 从 http://nmap. org/download. html 
下 载 相关 的 源 代码 压缩 包 。 在 安装 Nmap 之 前 ,需要 检查 ubuntu 是 否 安装 了 g 十 十 编译 器 。 
如 果 没 有 ,以 root 身份 登录 系统 ,在 终端 或 shell 命令 行 中 执行 命令 “apt-get install g 十 十 ”, 系 
统 就 会 自动 地 下 载 并 安装 g 十 十 编辑 器 。 
表 8-2 Nmap 与 操作 系统 信息 
项 目 说 m" | m B 说 m 
Nmap 安装 文件 操作 系统 版 本 


nmap-4. 85BETAS. tar. bz? | ubuntu-8, 10 


(2) 安装 步骤 
在 完成 上 述 准备 工作 之 后 ,就 可 以 开始 Nmap 的 安装 过 程 。 具 体操 


步骤 如 下 : 


(D 以 root 身份 登录 系统 ,或 者 输入 “su root" £648 JJ root 用 户 

© 在 终端 或 shell 命令 行 中 执行 命令 “tar xvjf nmap-4. 85BETA8. tar. bz2 
软件 包 的 内 容 解压 至 同一 目录 下 的 文件 夹 nmap-4. 85BETA8 中 

© 执行 命令 “cd nmap-4. 85BETA8” 进 入 解压 后 的 文件 夹 

(D 执行 命令 *. /configure” 对 当前 Linux 系统 进行 配置 。 如 果 配 置 成 功 ,在 命令 行 中 会 
显示 一 条 由 二 进 制 字符 组 成 的 喷 火 巨 龙 ,如 图 8-6 所 示 


,将 Nmap 


If it i a a y the --uith-openssl-DIR argument 
checking pcap.h 
ing pcap.h 
king for pc 


lakef ile. in to ignore the --da otdir setting 
J.S nfig.h 
config.status: config.h is unchanged 


UUUUUUU UU U 
RRRRRRR 


NMAP IS ñ POHERFUL TODL -- LY 
T to compile. 


图 8-6 Nmap 配置 成 功 界面 图 


© 执行 命令 “make” 对 Nmap 进行 编译 。 
© 执行 命令 “make install” ,将 Nmap 安装 到 /usr/local/bin/nmap 目录 下 。 
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3. Nmap 使 用 
Nmap 的 语法 如 下 : 
map HIRKA] [功能 选项 ] [目标 说 明 ] 


(1) 扫描 类 型 
Nmap 支持 十 几 种 扫描 技术 。 除 了 UDP 扫描 (-sU) 可 以 和 任何 一 种 TCP 扫描 类 型 结 


合 使 用 外 ,一 般 一 次 只 使 用 一 种 方法 进行 扫描 。 扫 描 类 型 的 格式 是 -s[ * ], 其 中 [ * ] 表 示 一 
个 字符 ,表示 特定 的 扫描 类 型 。 表 8-3 列 出 了 各 种 扫描 类 型 所 对 应 的 格式 。 其 中 ， 
deprecated FTP bounce 扫描 (-b) 是 一 个 例外 。 


表 8-3 Nmap 扫描 类 型 列表 


扫描 类 型 m sg 扫描 类 型 mg 
-SS TCP SYN 扫描 -sT TCP connect 扫描 
-sU UDP 扫描 -SN TCP NULL 扫描 
-SF TCP FIN 扫描 -sX TCP XmasTree 扫描 
-SA TCP ACK 扫描 -SW TCP 窗口 扫描 

-sM TCP Maimon 扫描 -sO IP 协议 扫描 

-b FTP 弹跳 扫描 

(2) 功能 选项 


Nmap 的 功能 选项 可 以 组 合 使 用 。 其 中 一 些 功能 选项 只 能 够 在 某 种 特定 的 扫描 模式 下 


使 用 。Nmap 会 自动 识别 无 效 或 者 不 支持 的 功能 选项 组 合 ,并 向 用 户 发 出 警告 信息 。 因 为 
Nmap 的 功能 选项 种 类 繁多 ,所 以 本 章 不 再 逐一 进行 详细 介绍 。 读 者 可 以 登录 到 Nmap 的 
官方 网 站 查阅 相关 内 容 (http://nmap. org/book/man-briefoptions. html) , 


(3) 目标 说 明 


除 扫描 类 型 和 功能 选项 以 外 , Nmap 命令 中 剩余 的 部 分 都 被 视 为 对 目标 主机 的 说 明 。 
以 TCP SYN 扫描 为 例 ,最 简单 的 情况 是 只 指定 一 个 目标 IP 地 址 或 主机 名 ,扫描 结果 如 下 


所 示 。 


Ioot@ skyxuyuwei- desktop:~ #rmap- sS 192.168.1.1 


Starting Nep 4.85EETA8 ( http://nmap.org ) at 2009- 04- 27 22:07 CST 
Interesting ports on 192.168.1.1: 

Not shown: 999 closed ports 

FORT STATE SERVICE 

23/tcp pen telnet 

MAC Address: 00:E0:EC:O4:01:AA (Huawei Technologies CO.) 


Nrap done: 1 IP address (1 host up) scanned in 10.92 seconds 


如 果 和 希望 扫描 整个 网 络 的 相 邻 主机 , 则 目标 说 明 可 以 采用 一 个 CIDR 风格 的 地 址 。 只 
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要 在 一 个 IP 地 址 或 主机 名 后 面 加 上 */<numbit 二 ”Nmap 就 会 扫描 所 有 与 该 参考 IP 地 址 具 
有 二 numbit> 位 相同 比特 的 所 有 TP 地 址 或 主机 。 王 numbit 盖 所 允许 的 最 小 值 是 1, 这 将 会 扫 
描 半 个 互联 网 ;最 大 值 是 32, 这 将 会 扫描 该 主机 或 IP 地 址 。 例 如 ,192. 168. 1. 0/24 将 会 扫描 
192. 168. 1.0 (二 进 制 格式 : 11000000 10101000 00000001 00000000) 和 192. 168. 10. 255( 二 进 
制 格式 : 11000000 10101000 00001010 11111111) 之 间 的 256 台 主 机 。 以 TCP SYN 扫描 为 
例 ,扫描 结果 如 下 所 示 。 


root skyxuyuwei— desktcp:= # nmap- sS 192.168.1.0/24 


Starting Nrap 4.85EETAB ( http://nmap.org ) at 2009- 04- 27 22:11 CST 
Interesting ports on 192.168.1.1: 

Not shown: 999 closed ports 

FORT STATE SERVICE 

23/tcp qen telnet 

MAC Address: 00:EO:FC:04:01:AA (Huawei Technologies OO.) 


Interesting ports on 192.168.1.23: 
Not shown: 996 filtered ports 

FORT STATE SEHVICE 

139/tcp cpen  netbios- ssn 
445/tcp œœn microsoft- ds 
912/tcp — open unknown 

2869/tcp closed unknown 

MAC Address: 00:21:9B:13:4C:0F (Dell) 


Interesting ports on 192.168.1.122: 

Not shown: 999 filtered ports 

FORT STATE SERVICE 

912/tcp qen unknown 

MAC Address: 00:24:8C:0C:9F:DD (Unknown) 


Interesting ports on 192.168.1.136: 
Not shown: 981 closed ports 


FORT SAE — SERVICE 
25/tco œn mp 

53/top cpn — dmain 

80/tcp pn http 

88/tcp cpen kerberos- sec 
135/tpp | open mye 

139/tcp œœn  netbios- ssn 
389/tcp pen ldp 

445/tcp ^ open microsoft-ds 
464/tcp œœn kpas 
593/tcp œœn http mpc- epep 
&6/tp — open — ldepesl 
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1025/tp œen NES-or-IIS 

1027/tp qen IIS 

1037/tp  cpen ^ unknown 

l030/tcp œn —— unknown 

lO4l/tcp œen unknown 

1050/tp open  java- or- orGfileshare 
3268/top pen ^ glcbalcatlDAP 
3269/tp open 。 gldbalcatIDRPssl 


MAC Address: 00:00:29:77:52:83 (WMware) 


Interesting ports on 192.168.1.158: 
Not shown: 996 filtered ports 


MAC Address: 00:16:76:A9:55:3A (Intel) 


Interesting ports on 192.168.1.222: 

Not shown: 997 filtered ports 

FORT SAE SERVICE 

139/top open  retbios- ssn 

445/tcp open microsoft- ds 

2869/tcp closed unknown 

MAC Address: 00:24:8C:0D:58:0B (Unknown) 


Interesting ports on 192.168.1.244: 
Not shown: 999 closed ports 
FORT STATE SERVICE 


22/tcp qen ssh 


Nmap done: 255 IP addresses (7 hosts up) scanned in 36.59 seconds 


CIDR 标志 位 虽然 非常 简洁 ,但 有 时 却 显得 不 够 灵活 。 例 如 ,扫描 192. 168. 0. 0/16 ,但 
略 过 任何 以 .0 或 者 . 255 结束 的 IP 地 址 (通常 为 广播 地 址 ) 。Nmap 通过 设 定 每 8 位 TP 地址 
的 范围 支持 这 种 扫描 。 用 户 可 以 用 *-” 分 开 的 数字 或 范围 列表 为 IP 地 址 的 每 8 位 组 指定 范 
围 。 例如 ,192. 168. 0-255. 1-254 将 略 过 在 该 范围 内 以 .0 和 . 255 结束 的 地 址 。 范 围 设 定 不 
限于 IP 地 址 的 最 后 8 位 。 例 如 ,0-255. 0-255. 13. 37 将 在 整个 互联 网 范围 内 扫描 所 有 以 
13. 37 结束 的 地 址 。 这 种 大 范围 的 扫描 对 互联 网 的 调查 研究 是 有 益 的 。 

此 外 ,目标 说 明 不 仅 局 限于 命令 行 指定 的 方式 ,还 可 以 通过 选项 -iL 从 列表 中 输入 。 如 
果 用 户 希望 对 互联 网 中 的 主机 进行 探测 , 则 可 以 通过 -iR 选项 随机 地 选择 目标 主机 。 
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网 络 诱骗 系统 设计 与 实现 


9.1 本 章 训练 目的 与 要 求 


网 络 诱骗 是 主动 网 络 防护 与 网 络 取证 的 主要 手段 之 一 ,对 于 保护 网 络 应 用 系统 安全 有 具 
有 重要 作用 。 本 章 在 讨论 网 络 诱骗 基本 原理 的 基础 上 ,系统 地 研究 系统 结构 设计 与 软件 编 
程 的 基本 方法 。 

本 章 训练 的 主要 目的 是 : 

COD 理解 网 络 诱骗 系统 的 基本 工作 原理 。 

(2) 理解 Linux 系统 调用 实现 和 原理 ,以 及 通过 Hook 技术 对 操作 系统 原 有 API 加 以 
扩展 的 方法 。 

(3) 掌握 Loadable Kernel Module 编程 的 相关 知识 和 方法 。 

(4) 了 解 Linux 系统 中 程序 隐藏 的 方法 。 

本 章 的 训练 内 容 是 设计 并 实现 一 种 简单 的 网 络 诱骗 系统 (Honey Pot) ,主要 要 求 如 下 : 

(1) 运行 于 Linux 平 台 , 工 作 在 系统 核心 层 (Ring 0) 。 

(2) 具有 记录 用 户 终端 登陆 后 键盘 输入 的 能 力 ,并 将 记录 的 信息 以 日 志 形 式 存储 。 

(3) 有 能 力 的 读者 可 以 尝试 添加 网 络 诱骗 系统 的 隐藏 功能 (模块 .文件 及 通信 等 ) 。 


9.2. 相关 背景 知识 


9.2.1 网 络 诱骗 系统 的 技术 手段 


网 络 诱骗 系统 是 用 来 观测 、 记 录 攻 击 者 探测 及 入侵 系统 行为 特征 的 一 类 网 络 安全 软件 。 
网 络 诱骗 系统 一 般 需要 存储 一 些 对 于 攻击 者 具有 较 大 诱惑 力 的 数据 或 应 用 程序 作为 诱饵 ， 
同时 通过 一 些 特殊 配置 来 诱惑 潜在 的 攻击 者 进行 攻击 ,并 对 其 攻击 行为 进行 监控 ` 记 录 , 进 
而 评估 其 危害 ,掌握 攻击 的 证 据 , 达 到 主动 保护 系统 和 网 络 ,为 依法 惩治 攻击 者 提供 必要 的 
依据 。 网 络 诱骗 系统 的 主要 技术 包括 伪装 技术 ,监控 技术 以 及 隐藏 技术 。 


1. 伪装 技术 


伪装 技术 用 于 在 网 络 诱骗 系统 上 虚拟 特定 安全 漏洞 或 者 网 络 服务 ,用 以 吸引 攻击 者 进 
行 攻击 ,其 主要 包括 已 知 漏洞 伪装 和 服务 伪装 两 种 。 

CD 已 知 漏洞 伪装 

为 了 使 网 络 诱骗 系统 对 人 侵 者 更 有 吸引 力 , 需 要 采用 各 种 欺骗 手段 。 例 如 在 欺骗 主机 
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上 模拟 一 些 操作 系统 ,一 些 网 络 攻击 者 最 “喜欢 ”的 端口 和 各 种 存在 入 侵 可 能 的 漏洞 特征 等 。 
a, 模拟 存在 注入 漏洞 的 Web 服务 器 
一 般 的 注入 入 侵 者 都 使 用 在 页 面 链 接 后 添加 “1 二 1” 和 “1 二 2” 的 方式 探测 注入 漏洞 ,可 
以 在 网 页 中 构造 如 下 代码 ,模拟 存在 注入 漏洞 的 网 页 ,从 而 欺骗 人 侵 者 。 


<% 

Id-Request ('id'); 

side right (id,1); 

uid- right (id,3) ; 

if (sid "'" then Response ("SQL TË 5] fiti « bx» sgL 语 句 后 有 未 闭合 的 引号 ") 

elseif sid- ";"then Response ("SQL 语 句 错误 <br> SQL 语句 操作 符 丢失 

end if 

if uid "= 1"then Fesponse ("< iframe src= '1ist.asp? id 1'wicth- Rheit 1008 frareboracer- 0» « /ifreme> ") 

elsif uid- "1= 2"then Response ("没有 找到 相关 数据 ") 

else Response. ("SL 语句 错误 <br> SL 语法 错误 !") 

endif 

s> 

上 述 代码 模拟 了 存在 注入 漏洞 的 网 页 在 接受 探测 时 的 表现 行为 ,当然 ,为 了 提升 模拟 效 
果 , 可 以 使 用 正则 表达 式 代替 简单 的 字符 比 对 ,从 而 增加 欺骗 的 普 适 性 。 

b. 模拟 IIS Unicode 目录 遍历 漏洞 

攻击 者 使 用 网 络 漏洞 扫描 器 对 目标 系统 进行 漏洞 检测 时 ,首先 探测 目标 系统 的 存活 主 
机 ,对 存活 主机 进行 端口 扫描 ,确定 系统 开放 的 端口 ,同时 根据 协议 指纹 技术 识别 出 主机 的 
操作 系统 类 型 。 然 后 扫描 器 对 开放 的 端口 进行 网 络 服务 类 型 的 识别 ,确定 其 提供 的 网 络 服 
务 。 漏 洞 扫 描 器 根据 目标 系统 的 操作 系统 平台 和 提供 的 网 络 服务 ,调用 漏洞 资料 库 中 已 知 
的 各 种 漏洞 进行 逐一 检测 ,通过 对 探测 响应 数据 包 的 分 析 判 断 是 否 存在 漏洞 。 

现 有 的 网 络 漏洞 扫描 器 主要 是 利用 特征 匹配 的 原理 来 识别 各 种 已 知 的 漏洞 的 。 扫 描 器 
发 送 含有 某 一 漏洞 特征 探测 码 的 数据 包 ,根据 返 回 数据 包 中 是 否 含有 该 漏洞 的 响应 特征 码 
来 判断 是 否 存在 漏洞 。 例 如 ,对 于 HS 中 的 Unicode 目录 遍历 漏洞 .扫描 器 只 要 发 送 含 有 特 
征 代码 %cl1%1c 的 探测 包 : http://x. x. x. x/scrlpts/. . % c1% 1c. . /winnt/system32/cmd 
exe? /c 十 dir, 如 果 应 答 数 据 包 中 含有 字符 串 *200 OK” 则 可 以 断定 该 漏洞 存在 。 所 以 可 以 伪 
造 一 个 http 服务 ,模拟 上 述 漏洞 的 反应 ,进而 吸引 攻击 者 进行 攻击 。 

(2) 服务 伪装 

使 用 端口 重 定向 技术 可 以 在 网 络 诱骗 系统 中 模拟 一 个 工作 于 其 他 主机 的 系统 服务 。 这 
样 可 以 在 引诱 攻击 者 进行 攻击 的 同时 ,不 对 真正 的 服务 运行 主机 造成 任何 伤害 。 

例如 , ServerU 权限 提升 漏洞 是 由 于 ServerU 保存 用 户 配置 文件 时 ,未 对 其 进行 保护 ， 
进而 导致 一 个 具有 特定 目录 写 权 限 的 用 户 可 以 通过 覆盖 用 户 配 置 文件 来 获得 执行 权限 。 通 
过 端口 重 定向 技术 就 可 以 在 避免 目的 主机 入 侵 的 前 提 下 安全 地 观测 攻击 者 的 入 侵 过 程 , 具 
体 配置 方法 如 下 。 

假定 存在 主机 A 为 正常 的 FTP 服务 器 ,主机 B 为 网 络 诱骗 系统 ,其 可 以 开放 自身 的 
21 端口 ,模拟 为 FTP 服务 器 ,当主 机 B 接收 到 其 他 主机 连接 其 21 端口 的 请 求 后 ,马上 创建 
一 个 新 的 套 接 字 ,并 连接 主机 A 的 21 端口 ,并 在 外 来 主机 与 主机 A 之 间 进 行 数据 中 转 和 监 
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控 。 针 对 数据 连接 的 操作 与 之 类 似 。 与 此 同时 ,主机 B 需要 对 传输 的 FTP 命令 进行 过 滤 ， 
防止 其 对 主机 A 产生 破坏 ,在 本 例 中 主机 B 需要 过 滤 全 部 执行 (exec) 命 令 。 

这 样 在 攻击 者 进行 攻击 时 ,主机 B 就 会 完整 记录 下 攻击 者 的 攻击 手段 ,记录 通过 程序 
漏洞 提升 权限 的 全 部 过 程 ,同时 阻止 攻击 者 的 进攻 行为 对 主机 A 造成 的 伤害 。 攻 击 者 希望 
运行 的 程序 一 般 为 攻击 者 上 传 的 木马 等 恶意 程序 。 


2. 监控 技术 


网 络 诱骗 系统 的 主要 功能 是 对 攻击 者 的 行为 进行 监控 ,为 实现 这 个 目标 需要 以 下 两 方 
面 的 功能 : 

(1) 数据 控制 

数据 控制 的 目的 是 确保 网 络 诱骗 系统 中 的 诱骗 主机 不 会 被 用 来 作为 攻击 网 络 中 的 其 他 
非 诱骗 主机 的 跳板 。 网 络 诱骗 系统 的 数据 控制 必须 保证 不 被 攻击 者 发 现 ,否则 会 影响 系统 
的 诱骗 效果 。 上 文 提 到 的 在 通过 端口 重 定向 模拟 FTP 服务 器 过 程 中 对 “exec” 命 令 的 过 滤 
就 属于 数据 控制 的 范畴 。 此 外 ,数据 控制 技术 还 包括 禁止 本 机 开放 新 端口 ,禁止 对 外 连 
接 等 。 

(2) 信息 捕获 

数据 捕获 的 目的 是 在 尽 可 能 隐蔽 的 情况 下 记录 攻击 者 攻击 行为 的 特征 数据 ,包括 击 键 
序列 及 向 网 络 中 发 送 的 数据 包 等 信息 。 攻 击 行为 特征 数据 记录 的 越 全 面 , 越 容易 对 其 特点 
进行 分 析 以 找到 相应 的 应 对 措施 。 

需要 捕获 的 信息 包括 攻击 者 上 传 的 文件 内 容 ,键盘 的 输入 命令 和 网 络 活动 等 ,在 不 同 平 
台 下 有 不 同 的 实现 方式 : 例如 在 Win32 平 台 下 ,可 以 通过 注册 键盘 钧 子 回 调 孙 数 在 键盘 操 
作 的 时 候 通 过 回调 函数 获得 键盘 的 输入 信息 ,也 可 以 通过 编写 键盘 过 滤 驱 动 直 接 在 Ringo 
获取 键盘 的 输入 内 容 , 针 对 文件 监控 ,可 以 使 用 磁盘 过 滤 驱 动 监控 文件 的 写 入 ,使 用 SPI dx 
术 或 者 Hook NDIS 分 别 从 应 用 层 和 链 路 层 对 网 络 活动 进行 监控 ;而 在 Linux 下 可 以 通过 注 
册 自 己 的 中 断 响应 句柄 或 者 支持 系统 函数 对 键盘 输入 进行 监控 ,可 供 选择 的 系统 函数 包括 
handle scancodeO ,put. queueO ,receive_buf() ,tty_read() 以 及 sys_read() ,本 章 的 示例 程 
序 就 是 通过 劫持 sys_read() 函 数 实 现 的 。 至 于 网 络 监控 方面 ,Linux 提供 了 EB table 和 IP 
table 可 以 分 别 从 链 路 层 和 网 络 层 对 网 络 数 据 进行 监控 。 由 于 Linux 是 一 款 开源 的 操作 系 
统 ,所 以 可 以 通过 更 改 系统 源 代 码 对 原 有 系统 功能 进行 扩展 ,从 而 实现 对 信息 的 监控 和 
捕获 。 


3. 隐藏 技术 


在 攻击 者 入 侵 的 同时 ,网 络 诱骗 系统 将 记录 攻击 者 的 输入 、 输 出 信息 ,键盘 记录 信息 , 屏 
幕 信息 以 及 攻击 者 曾 使 用 过 的 工具 ,并 分 析 攻 击 者 所 要 进行 的 下 一 步行 为 。 捕 获 的 数据 不 
能 直接 放 在 网 络 诱骗 系统 主机 上 ,因为 有 可 能 被 攻击 者 发 现 ,从 而 使 其 觉察 到 这 是 一 个 “ 陷 
阱 ?而 提早 退出 。 所 以 ,可 以 通过 一 些 Root kit 技巧 对 文件 进行 隐藏 ,或 者 使 用 网 络 协议 将 
数据 直接 发 送 到 专用 的 日 志 服务 器 进行 数据 记录 。 以 开源 项 目 Sebek 网 络 诱骗 系统 为 例 ， 
其 使 用 UDP 协议 直接 将 记录 的 日 志 数 据 发 送 到 日 志 服 务 器 ,为 了 防止 攻击 者 监控 其 通信 
数据 ,Sebek 跳 过 系统 协议 栈 ,手动 构 造 UDP 头 、IP 头 以 及 链 路 层 包 头 ,并 直接 使 用 网 卡 驱 
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动 接口 发 送 数据 包 。 此 外 Sebek 还 拦截 了 系统 Raw Socket 的 调用 ,从 而 确保 攻击 者 使 用 
Sniffer 也 无 法 发 现 其 日 志 数据 。 

此 外 ,网 络 诱骗 系统 本 身 也 可 能 被 攻击 者 发 现 。 所 以 ,必须 通过 进程 隐藏 .模块 隐藏 及 
文件 隐藏 等 相关 技巧 对 网 络 诱骗 系统 本 身 进 行 隐藏 ,以 增加 系统 的 安全 性 。 本 章 扩展 提高 
部 分 就 对 如 何在 Linux 系统 中 隐藏 内 核 模块 ,文件 及 通信 端口 进行 了 介绍 。 


9.2.2 网 络 诱骗 系统 分 类 
网 络 诱骗 系统 可 以 根据 以 下 3 种 情况 进行 分 类 。 
1. 网 络 诱骗 系统 配置 的 复杂 性 分 类 


按照 网 络 诱骗 系统 配置 的 复杂 性 ,网 络 诱骗 系统 可 以 分 为 单机 网 络 诱骗 系统 和 网 络 诱 
骗 系统 两 类 . 

(1) 单机 网 络 诱骗 系统 一 般 使 用 一 台 主 机 作为 目标 系统 的 副本 , 同 真 实 的 系统 安装 同 
样 的 操作 系统 ,提供 同样 的 服务 。 这 种 网 络 诱骗 系统 中 除了 有 很 多 已 知 的 系统 漏洞 外 ,一 般 
还 存在 一 些 诱 人 的 虚假 信息 (如 公司 的 财务 报表 、 一 些 重要 的 客户 资料 等 ) 用 于 引诱 攻击 者 
进行 攻击 。 

(2) 网 络 诱骗 系统 在 多 个 单机 网 络 诱骗 系统 的 外 围 加 入 一 些 传统 的 网 络 安全 防御 措 
施 , 进 而 对 进出 单机 网 络 诱骗 系统 的 数据 流量 进行 控制 ,防止 其 被 攻击 者 作为 攻击 其 他 非 网 
络 诱骗 系统 的 跳板 。 由 于 单机 网 络 诱骗 系统 中 的 数据 直接 进入 网 络 , 所 以 仅 靠 单机 网 络 诱 
骗 系 统 难以 控制 外 出 的 数据 流量 ,系统 很 有 可 能 被 攻击 者 用 作 攻 击 网 络 上 的 其 他 非 网 络 诱 
骗 系 统 , 所 以 在 实际 的 应 用 中 ,单机 网 络 诱骗 系统 很 少 出 现 。 


2. 网 络 诱骗 系统 部 署 的 目标 分 类 


按照 网 络 诱骗 系统 的 部 署 目标 ,网 络 诱骗 系统 可 以 分 为 产品 型 的 网 络 诱骗 系统 和 研究 
型 的 网 络 诱骗 系统 两 类 。 

CD 产品 型 的 网 络 诱骗 系统 一 般 是 一 些 商业 性 的 网 络 安全 公司 以 市 场 为 导向 开发 的 面 
向 企业 应 用 的 一 些 专门 的 网 络 诱骗 系统 ,其 主要 部 署 目标 是 通过 一 些 虚假 的 网 络 资源 来 耗 
费 攻击 者 的 精力 ,进而 达到 保护 企业 网 络 安 全 的 目的 ,如 Resource Technologies 公司 的 
ManTrap 网 络 诱骗 系统 。 

(2) 研究 型 的 网 络 诱骗 系统 一 般 是 一 些 信息 安全 研究 人 员 及 相关 的 研究 组 织 为 了 对 网 
络 的 安全 状况 进行 研究 而 开发 的 一 些 网 络 诱骗 系统 ,其 主要 部 署 目标 是 收集 网 络 上 攻击 行 
为 的 最 新 动向 ,为 网 络 安全 的 研究 提供 第 一 手 资料 ,如 北京 大 学 计算 机 所 信息 安全 工程 研究 
中 心 开发 的 狩猎 女神 系统 以 及 Fred Cohen 开发 的 DTK 工具 集 。 


3. 网 络 诱骗 系统 部 署 实施 情况 分 类 


按照 网 络 诱骗 系统 的 实施 情况 ,可 以 将 网 络 诱骗 系统 分 为 真实 主机 网 络 诱骗 系统 和 虚 
主机 网 络 诱骗 系统 等 两 类 。 

(1) 真实 主机 网 络 诱骗 系统 主要 是 通过 在 真实 的 网 络 环境 中 放置 一 些 真 实 的 主机 和 存 
在 安全 漏洞 的 服务 来 吸引 攻击 者 的 注意 。 由 于 这 种 系统 中 所 有 的 安全 漏洞 都 是 真实 服务 中 
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存在 的 ,所 以 很 难 被 攻击 者 发 现 , 诱 骗 的 效果 比较 好 。 但 这 种 网 络 诱骗 系统 中 的 真实 网 络 环 
境 需 要 大 量 的 硬件 投入 ,这 在 一 定 的 程度 上 增加 了 系统 的 成 本 。 

(2) 虚拟 主机 网 络 诱骗 系统 是 指 在 特定 的 计算 机 系统 中 通过 软件 的 方法 来 模拟 计算 机 网 
络 环境 和 网 络 服务 的 漏洞 以 达到 吸引 攻击 者 注意 的 目的 。 这 种 网 络 诱骗 系统 的 优点 是 硬件 投 
和信 较 少 ,系统 的 扩展 比较 灵活 。 但 由 于 网 络 环境 和 网 络 服务 软件 的 复杂 性 ,全 面 模拟 较为 困 
难 ,很 容易 在 模拟 系统 中 留 下 一 些 痕 迹 ,在 一 定 程度 上 降低 了 网 络 诱骗 系统 的 诱骗 效果 。 


9.2.3 可 加 载 内 核 模块 介绍 


可 加 载 内 核 模块 (loodable kemel module,LKM) 可 以 允许 系统 管理 员 在 一 台 运 行 着 的 
Linux 系统 的 内 核 上 动态 增加 或 删除 功能 模块 。LKM 的 功能 非常 强大 ,由 于 其 运行 于 核心 
层 , 其 拥有 系统 的 最 高 权限 ,可 以 对 系统 进行 任意 更 改 和 操作 ,因此 是 学 习 Linux 安全 编程 
必须 掌握 的 内 容 之 一 。 


1. 编写 内 核 模 块 
下 面 用 一 个 实例 介绍 LKM 编程 的 基本 方法 (代码 如 下 ): 


//file:  try.c 
#ifndef KNL _ 

#define  KEREL _ 
fendif 

# ifndef MOUIE 

# define MOUIE 

#endif 

# include < linux/module.h» 

# include < linux/kernel.h» 

static int _ init try init (void) 

t 

printk(KEEN EMEFG "Init. Vn"); 
retum 0; 

$ 

static void — exit try exit (void) 

t 

printk(KEEN EMEFG "Exit.n") ; 

i 

modde init(try init); 

module exit (try exit); 

这 个 简单 的 源 文件 就 是 一 个 完整 的 LKM .如果 读 者 学 习 过 Windows 驱动 开发 ,一 定 会 
感叹 Linux 开发 的 简洁 。 该 LKM 模块 的 功能 简单 ,就 是 在 加 载 和 印 载 时 分 别 向 终端 输出 
调试 信息 “Init? 和 “Exit?。 其 中 最 关键 的 是 两 行 代 码 为 module initO 函数 和 module_exit() 
函数 ,它们 分 别 指定 在 这 个 LKM 加 载 和 秃 载 时 调用 的 函数 。 

早期 版 本 的 Linux 使 用 gcc 编译 该 模块 ,在 2.6 内 核 中 要 编程 人 员 自 己 编写 Makefile 
文件 ,然后 使 用 make 命令 对 其 进行 编译 ,系统 会 自动 调用 kbuild 来 完成 内 核 模块 的 编译 和 
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链接 等 工作 。 


Makefile 的 编写 方法 如 下 。 


cbj-m:- tzy.o 
RERNEIEUTID:= /lib/modules/"uname— r' /build 
default: 

make- C $ (KEENELBUILD) M= $ (shell pwd) modules 
clean: 

zm-rf* .0 .* .ami* .ko* -mod.c „tip versions 


在 编写 好 Makefile 文件 后 就 可 以 使 用 make 命令 对 该 模块 进行 编译 了 ,编译 出 的 目标 


文件 为 Hello. ko。 


2. 使 用 内 核 模块 


Linux 提供 了 一 套 系统 命令 用 于 操作 LKM: 

(D insmod: 安装 模块 ; 

(2) rmmod: 删除 模块 ; 

(3) modprobe: 比较 高 级 的 加 载 和 删除 模块 ,可 以 解决 模块 之 间 的 依赖 性 ; 

(4) Ismod; 列 出 已 经 加 载 的 模块 及 其 相关 信息 ; 

(5) modinfo: 用 于 查询 模块 的 相关 信息 ,比如 作者 ,版权 等 。 

现在 可 以 尝试 使 用 insmod 加 载 try. ko 了 ,加载 后 可 以 尝试 使 用 lsmod 列 出 当前 全 部 


的 内 核 模块 ,使 用 rmmod 印 载 指定 模块 , 现 截取 屏幕 输出 如 下 。 


root8 tuxus- netlab:/home/bzaas/]jatry# insmod try.ko 

root6 tuxus- netlab:/home/tuxus/1lkm/tryf 

Message fram syslogdé tuxus- netlab at Wed Apr 30 10:19:49 2008 ... 
tus- netlab kernel: [ 3307.029760] Init 


root txus- netlab: /hame/tuxus/1km/tryf lsnod 


Module Size Used by 
try 2688 0 

binfmt misc 12600 1 

rfomm 40856 0 

l12cep 25728 — 5rfoxm 
processor 31048 1 thermal 
fan 5636 0 

fboon 42656 0 
tileblit 3584 1 fboon 
font 9216 1 fbcon 
bitblit 6912 1 fboon 
softcursor 3200 1 bitblit 
vesafb 9220 0 
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commcncap 819 1capability 

root8 tuxus- netlab: /home/tuxus/1km/tryf mmod try 

root tuxus- netlab: /home/tuxus/1Tkm/tryf 

Message fram syslogdé tuxus- netlab at Wed Apr 30 10:20:16 2008 ... 
tuxus- netlab kernel : [3333.797833] Exit 


3. 扩展 LKM 功能 


Linux 还 提供 了 以 下 的 宏 命令 用 于 扩展 LKM 功能 。 

(1) 输出 常用 信息 

一 般 的 LKM 模块 包含 作者 、 版 权 及 说 明 等 信息 ,为 此 ,Linux 提供 了 一 组 宏 命 令 实 现 
此 类 功能 : 

a. MODULE_AUTHOR("author"); 

b. MODULE_DESCRIPTION("the description"); 

c. MODULE LICENSE("GPL") ; 

d. MODULE SUPPORTED DEVICE("dev") ; 

(2) 加 载 时 传递 参数 

和 用 户 程序 一 样 , LKM 也 可 以 在 加 载 时 从 控制 台 获 得 加 载 参 数 ,可 使 用 宏 命令 : 
MODULE_PARM (var, type) 实 现 该 功能 ,其 中 var 是 变量 名 称 ,type 是 变量 类 型 ,包括 下 
述 种 类 : 

a. b: 比 特 型 

b. h: 短 整 型 

c, i: 整 型 

d. 1: 长 整 型 

e, s: TERM 

在 传递 字符 串 型 的 参数 时 ,LKM 中 存储 参数 的 变量 需要 提前 声明 ,然后 在 加 载 时 由 
insmod 赋值 ,此 类 变量 一 般 为 全 局 变量 。 例 如 ， 

int a-3; 

Char * str; 

MODUE PBFM(a, "i"); 

MOUIE FRRM(st, s") ; 

在 通过 insmod 加 载 该 模块 时 ,传递 参数 格式 为 : insmod try. ko "a= 3", "st= hello 
world", 

此 外 ,MODULE_PARM() 也 支持 最 常用 的 数组 类 型 。 用 短线 “把 两 个 数字 分 开 , 分 别 
表示 数组 参数 中 的 最 小 位 数 和 最 大 位 数 。 例 如 : 


int array[8]; 

MDDUTE PAFM(array, "1- 8i"); 

通过 命令 行 代入 参数 的 方法 : insmod try. ko"array —38745.123.4000" , 
(3) 导出 符号 
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引入 一 个 模块 的 目的 常常 是 为 了 对 内 核 功 能 进行 扩展 ,所 以 模块 一 般 都 会 导出 符号 ,以 
便 该 符号 可 以 被 其 他 内 核 模块 访问 。 为 此 Linux 为 用 户 提 供 了 宏 EXPORT_SYMBOL 
(var) 用 以 实现 该 功能 。 


9.2.4 Linux 系统 调用 实现 原理 


1. CPU 安全 保护 


Linux 内 核 中 设置 了 一 组 用 于 实现 各 种 系统 功能 的 子 程序 , 称 为 系统 调用 。 程 序 编 写 
者 可 以 通过 系统 调用 接口 在 应 用 程序 中 调用 它们 。 从 某 种 角度 来 看 ,系统 调用 和 普通 的 函 
数 调用 非常 相似 。 区 别 仅仅 在 于 ,系统 调用 由 操作 系统 核心 提供 ,运行 于 核心 态 ;而 普通 的 
函数 调用 由 函数 库 或 用 户 自己 提供 ,运行 于 用 户 态 。 例 如 在 程序 中 创建 一 个 新 的 进程 所 需 
调用 的 fork 函数 就 属于 系统 调用 范围 。 

Intel 的 CPU 代码 运行 分 为 4 个 安全 级 别 , 而 Linux 只 使 用 了 其 中 的 两 个 , 即 Ring0 和 
Ring3 ,一 般 的 用 户 代 码 运行 于 Ring3 而 系统 内 核 代 码 运行 于 Ring0。 正 常情 况 下 用 户 代码 
无 法 访问 Ringo 的 内 容 , 但 是 在 某 些 情况 下 ,例如 进程 创建 等 特殊 操作 ,用 户 代 码 需要 调用 
运行 于 内 核 的 某 些 特定 功能 ,这 就 需要 通过 系统 调用 进行 。 


2. 系统 调用 原理 


系统 调用 的 实现 原理 很 简单 : 系统 内 部 保存 一 张 全 局 表 sys_call_table, 表 的 每 个 
位 置 对 应 某 系 统 调用 实现 函数 的 指针 , 当 需 要 调用 某 个 系统 调用 函数 时 ,用 户 层 代码 首先 将 
该 函数 需要 的 参数 压 栈 ,将 所 需 系 统 调用 在 sys_call_table 表 中 的 位 置 存 人 eax 寄存 器 , 然 
后 调用 一 条 特殊 的 指令 int 80h, 该 指令 可 以 使 执行 流程 从 Ring3 陷入 到 Ring0, 然 后 系统 内 
核 会 从 栈 内 存 读 出 相应 的 参数 和 所 需 函 数位 置 到 相应 的 寄存 器 中 ,然后 调用 相关 的 内 核 函 
数 完 成 用 户 需 求 的 功能 ,最 后 返回 执行 结果 。 图 9-1 给 出 了 系统 调用 的 执行 过 程 。 


用 户 态 核心 态 
( Í í 核心 中 断 人 系统 调用 
系统 调用 C 函数 库 处 理 函数 实现 
| 系统 调用 。| 通过 int 80h 
| | 传递 给 内 核 | | 寻找 sys_call_table 
中 对 应 函数 地 址 | 系 
统 
调 
用 
返回 执行 结果 | 执 
— f 


返回 用 户 空间 


返回 


图 9-1 系统 调用 流程 图 
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3. 系统 调用 实现 


Linux 在 unistd. h 里 定义 了 以 下 7 个 宏 , 用 于 实现 参数 个 数 不 同 的 系统 调用 。 

(D _syscall0(type,name) 

(2)  syscalll(type.name.typel .argl) 

(3) syscall2Ctype. name.typel.argl.type2.arg2) 

(4) syscall3Ctype.name.typel .argl ,type2 .arg2type3.arg3) 

(5)  syscalld( type. name.typel .argl .type2 .arg2.type3.arg3.type4 .arg4) 

(6)  syscall5 type. name. typel ,arg] ,type2 .arg2 .type3 .arg3 ,type4 .arg4 ,type5 ,arg5) 

(7)  syscall6 ( type, name, typel. argl, type2. arg2. type3. arg3. type4, arg4, type5， 
arg5 ,type6, arg6) 

其 中 ,type 为 返回 值 的 类 型 ,name 为 系统 调用 在 sys. call table 中 的 位 置 , 剩 下 的 argN 
和 typeN 即 为 对 应 的 系统 调用 参数 以 及 参数 类 型 。 

下 面 的 代码 为 Linux 实现 参数 个 数 为 1 的 系统 调用 代码 ; 


# define _syscalll (type,name, typel,argl) 
type name (typel argl) { 
. SYS FG (name) 
register long r0 asm ("r0")- (long)argl; 
register lng res r0 asm ("r0"); 
long res; 
. am _ volatile ( 
— Syscall (name) 
zr" ( res r0) 
: — SYS REG LIST("( r0)) 
: "memory"); 
. res- res r0; 
. syscall retum(tyre, res); 
) 


可 见 程 序 首先 将 参数 存 人 寄存 器 中 ,然后 通过 调用 _syscall(name) 宏 触发 中 断 , 该 宏 展 
开 之 后 为 swi # name, BIDI name 为 中 断 号 触发 软 中 断 ,然后 在 中 断 处 理 函数 中 进一步 对 系 
统 调 用 进行 处 理 , 中 断 处 理 函 数 会 将 返回 值 保存 在 rO 寄存 器 中 ,程序 通过 调用 _ syscall_ 
return 将 该 值 返 回 到 用 户 空间 。 


#define — syscall retum(type, res) 
dot 
if ((unsigned long) (res) — (unsigned long) (- 129)) ( 
ermo-- (res); 
mws-1; 
} 
retum (type) (res); 
} while (0) 
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为 防止 和 正常 的 返回 值 混淆 ,系统 调用 并 不 直接 返回 错误 码 , 而 是 将 错误 码 放 入 一 个 名 
H errno 的 全 局 变量 中 。 如 果 一 个 系统 调用 失败 ,可 以 读 出 errno 的 值 来 确定 问题 所 在 。 


9.2.5 Linux 键盘 输入 实现 原理 


1. Linux 读 取 键 盘 输 入 的 主要 流程 


CD 当 发 生 键盘 项 击 动作 时 ,键盘 中 断 被 甬 发 。 在 中 断 处 理 函数 handle_scancode() 中 ， 
Linux 系统 首先 产生 键盘 扫描 码 , 并 通过 put_queue() 系 统 调用 提交 ,一 个 独立 的 击 键 行为 
可 以 产生 长 度 为 6 的 键盘 扫描 码 队列 。put_queue() 代 码 如 下 


Static void put queue(struct vc data* vc, int ch) 


£ 


struct tty struct* tty=vc->vc tty; 


if (tty) ( 


tty insert flip char(tty, ch, 0); 
con schedule flip(tty); 


) 


其 中 ,tty_insert_flip_char() 函 数 完成 上 述 队 列 插入 操作 。 
(2) 然后 Linux 系统 根据 键盘 扫描 码 将 击 键 操作 转换 为 相应 的 key 值 ,并 将 其 存 人 


tty_flip_buffer 队列 中 。 


系统 通过 结构 体 tty_ldisc 定义 终端 接口 ,每 个 结构 体会 定义 一 组 函数 指针 ,用 于 系统 
在 需要 从 该 终端 读 或 者 写 时 调用 。 该 结构 体 的 定义 如 下 : 


struct tty ldisc ( 
int 
char 


int 


(* cpen) (struct tty struct* ); 

(* close) (struct tty struct* ); 

(* flush buffer) (struct tty struct* tty); 

(* chars in buffer) (struct tty struct* tty); 

(* read) (struct tty struct * tty, struct file* file,unsigned char _ user* buf, 
size tnr); 

(* write) (struct tty struct * tty, struct file * file const unsigned char * buf, 
size t nr); 

(* ioctl) (struct tty struct * tty, struct file * file,unsigned int amd, unsigned 
long arg); 

(* set termios) (struct tty struct* tty, struct termios* old); 

(* poll) (struct tty struct* , stmct file* ,struct poll teble stnrt* ); 

(* hangup) (struct. tty struct* tty); 

(* receive buf) (struct tty struct * , const unsigned char * œp, char * fp, int 


count); 
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void (* write wakeup) (struct tty struct* ); 
struct module* owner; 
int refcount; 


G) 上 层 驱动 会 自动 调用 receive buf O 函数 从 tty. flip. buffer 中 获得 字符 ,然后 把 这 
些 字符 送 入 tty read 队列 。 

CD 在 应 用 层 从 键盘 读 取 输入 时 ,应 用 程序 会 调用 read O 函数 从 stdin 中 读 取 数据 ， 
read O PR ŽE fij 8] H] sys_read() 系 统 调用 ,该 系统 调用 根据 参数 传递 的 句柄 找到 相应 的 
file operations 结构 体 ,进而 调用 该 结构 中 注册 的 read O 函数 指针 , 读 取 信息 。 

file operations 结构 体 的 作用 是 规定 一 类 操作 文件 或 者 设备 的 接口 函数 指针 。 在 读 取 
键盘 输入 时 ,其 中 的 read() 函 数 指针 调用 tty_read() 函 数 从 tty read 队列 中 读 取 数据 并 将 
结果 返回 。 

tty_read() 函 数 的 实现 代码 如 下 : 


static ssize t tty read(struct file* file, char _ user* buf, size t count,loff t* ppos) 
t 
inti; 
struct tty struct* tty; 
struct inocde* inode; 
struct tty ldisc* ld; 
tty- (struct tty struct* )file-» private data; 
inode- file-» f dentry-» d inode; 
if (tty paranoia check(tty, inode, "tty reed")) 
return- Eio; 
if (!ttyll (test bit(TIY io ERROR, &tty-» flags))) 
return- Eio; 
/* We want to wait for the line discipline to sort out in this 
situation* / 
ld-tty ldisc ref wait (tty); 
lock kermel (); 
if (1d-> read) 
i= (1d-» read) (tty, file,buf, count) ; 
else 
i--Eio; 
tty ldisc deref (13) ; 
unlock kernel (); 
if (i>0) 
inode-»i atime- current fs time(inode >i sb); 
retum i; 
} 
可 见 ,Linux 系统 首先 获得 对 应 的 tty_ldisc 结构 体 指针 ,并 使 用 该 指针 获得 对 应 设备 注 
册 的 read() 函 数 指针 进而 从 该 设备 中 ( 即 上 文 介绍 的 tty read 队列 ) 读 取 数 据 。 图 9-2 给 出 
T Linux 读 取 键盘 输入 的 流程 图 。 
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Lr n 
触发 键盘 中 断 


receive buf() 


handle scancode =| tty queue 


Y 
tty. Idisc buffer 


user process lev/tty. tty. read() 


图 9-2 Linux 读 取 键 盘 输入 流程 图 


2. Linux 键盘 输入 截获 方式 


根据 Linux 键盘 操作 读 取 流程 ,可 以 使 用 如 下 方法 截取 键盘 输入 : 

(1) 注册 新 的 键盘 中 断 函 数 。 

(2) Àj f$ handle scancodeO K% 

(3) Àj f$ put queue O PR, 

(4) 劫持 receive buf O PRÉC, 

(5) 劫持 tty readO AR 

(6) 劫持 sys read ORC, 

在 采取 劫持 函数 的 方法 时 ,截取 越 接近 键盘 驱动 层 的 函数 执行 效率 和 隐蔽 性 越 高 ,但 是 
代码 编写 也 越 复杂 ,考虑 到 教学 需求 ,本 文 介绍 的 示例 程序 将 使 用 截取 sys_read() 函数 的 方 
式 进行 键盘 监控 ,并 在 扩展 提高 部 分 介绍 其 他 的 键盘 截获 方式 。 


9.3 ”实例 编程 练习 


9.3.1 编程 练习 要 求 


设计 一 种 运行 于 Linux 系统 的 网 络 诱骗 系统 ,能 够 监控 登录 用 户 在 控制 台 上 的 输入 ( 键 
盘 操 作 ) ,并 将 上 述 信息 以 日 志 的 形式 记录 ,要 求 记 录 包 括 输入 命令 内 容 ,执行 者 PID 以 及 
命令 输入 时 间 等 。 

(1) 要 求 网 络 诱骗 系统 程序 基于 Linux 系统 ,使 用 LKM 技术 进行 编写 。 

(2) 为 简化 编程 难度 ,推荐 读者 使 用 拦截 系统 调用 sys_read() 函 数 的 方式 监控 用 户 输 
入 ,并 假设 该 程序 工作 于 单 核 主 机 上 。 

(3) 有 能 力 的 读者 可 以 尝试 实现 LKM 的 隐藏 功能 。 


9.3.2 编程 训练 设计 与 分 析 
程序 的 结构 非常 简单 ,分 成 3 个 模块 : 系统 调用 替换 模块 ,输入 截获 模块 和 日 志 记录 模 
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块 。 整 个 程序 包含 在 一 个 LKM 模块 结构 中 ,在 模块 的 初始 化 函数 中 ,程序 完成 相关 系统 调 
用 的 替换 工作 ,并 初始 化 全 局 变量 ;在 印 载 函数 中 ,还原 系 统 调 用 。 新 的 sys_read() 系 统 调 
用 在 任何 应 用 程序 执行 VO 读 操作 时 被 调用 。 在 该 函数 中 ,程序 自动 检测 1/O 读 取 源 是 否 
为 标准 输入 (键盘 输入 ) ,并 记录 全 部 从 标准 输入 读 取 的 内 容 。 

程序 执行 流程 如 图 9-3 所 示 。 


初始 化 退出 替换 后 的 sys_read() 函数 
锁定 内 核 锁定 内 核 调用 原 有 的 
sys read() 
Lu 系统 调用 
初始 化 所 需 I 
中 间 变 量 
' 1 
获得 sys_call_table 恢复 原 有 的 
地 址 Sys. read() 
系统 调用 
将 读 到 的 数据 
ku md 记录 入 log 文件 


i 
CT ) CS (mutua) 


图 9-3 程序 执行 流程 图 


1. 获得 sys_call_table 地 址 


在 Linux 内 核 2.6 之 前 的 版 本 中 ,系统 调用 表 的 地 址 是 通过 变量 sys call table 导出 
的 ,开发 人 员 可 以 简单 的 通过 访问 该 变量 获得 系统 调用 表 的 地 址 ,进而 对 系统 进行 扩展 。 但 
是 在 2.6 以 后 的 版 本 为 了 安全 性 考虑 不 再 导出 该 地 址 ,这 就 需要 程序 员 手 动 获得 该 表 的 
地 址 。 

由 于 系统 调用 都 是 通过 80h 中 断 来 进行 的 , 故 在 80h 中 断 的 处 理 函 数 中 必然 能 够 获得 
sys_call_table 的 地 址 。 

中 断 描述 符 表 把 中 断 服务 程序 和 中 断 向 量 对 应 起 来 ,在 应 用 程序 进行 系统 调用 时 ( 见 
图 9-1) ,操作 系统 会 调用 80h 中 断 的 处 理 函 数 system. callO ; system, call O PR Zi fe & Zt iB] 
用 表 中 根据 系统 调用 号 找到 并 调用 相应 的 系统 调用 服务 例 程 。 由 于 idtr 寄存 器 始终 指向 中 
断 描述 符 表 的 起 始 地 址 ,所 以 用 sidt 指令 得 到 中 断 描 述 符 表 的 起 始 地 址 ,进而 获得 int 0x80 
中 断 描述 符 所 在 的 位 置 , 然 后 通过 该 描述 符 得 出 system_call() 函数 的 地 址 。 

下 面 的 任务 就 是 从 system. call O 函数 代码 中 寻找 sys. call table 的 地 址 。 对 system_ 
call() 函 数 进行 反 编译 ,可 以 看 到 ,在 system. callO PR CI JH call sys. call tableC.eax.4) 
指令 来 调用 系统 调用 函数 的 。 因 此 ,只 要 找到 该 指令 就 可 以 获得 系统 调用 表 的 地 址 了 。 

为 了 进行 查找 ,必须 首先 定位 查找 的 特征 值 ,将 内 核 中 的 system. call O 函数 进行 反 编 
译 ,得 出 如 下 代码 : 


Oxc0103e04 : push seax 
0xc0103e05 : cld 
0xc0103e06 : push $es 
0xc0103e07 : push $ds 
0xc0103e08 : push seax 
0xc0103e09 : push $etp. 
OxcOl03e0a : push Sedi. 
OxcOl03eQb : push Sesi 
OxcOl03e0c : push Sedx 
OxcO103e0d : push ecx 
OxcOl03e0e : push $ebxx 
OxcO103e0f : mov $0x/7b, edi 
OxcO103el4 : movl $ed, tds 
Oxc0103el6 : movl $edx, tes 


0xc0103e18 : mov $Ox££££f000, tep 


Oxc0103eld : and $esp, $ebp. 


OxcOl03elf : testl $0x100,0x30 ($esp) 


0xc0103e27 : je OxcOl03e2d 
Oxc0103e29 : orl $0x10,0x8 (ebp) 


OxcO103e2d : testw $0xlcl, 0x8 (ebp) 


0xc0103e33 : jne OxcOl03ef8 
0xc0103e39 : arp $0x140, eax 
Oxc0103e3e : jae OxcO103fGo 


OxcO103e44 : call * Qx:03094c0(, eax, 4) 


Oxc0103e4b : mov $eax, 0x18 ($esp) 
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加 黑 的 一 句 就 是 调用 call sys_call_table( ,eax,4) ,而 这 个 call 指令 是 本 函数 中 唯一 一 
个 call 指令 ,所 以 可 以 使 用 它 作 为 搜索 的 特征 值 。(call 的 指令 码 为 0xc03094c08514ff) 

具体 步骤 如 下 。 程 序 首先 获取 中 断 描 述 符 表 的 地 址 ,再 从 中 查找 0x80 中 断 的 服务 例 
程 , 进 而 搜索 该 例 程 的 内 存 空间 ,并 从 其 中 搜索 sys call table 的 地 址 。 程 序 代 码 如 下 : 


(1) 定义 相关 的 数据 结构 
// 中 断 描述 符 表 寄 存 器 结构 


Struct { 

unsigned short limit; 
unsigned int base; 

) attribute ((packed)) idtr; 


// 中 断 描 述 符 结构 

struct { 

unsigned short offl; 

unsigned short sel; 

unsigned char none, flags; 
unsigned short off2; 

) attribute ((packed)) idt; 


E 
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(2) 查找 sys_call_table 地 址 


U32xxGetSystemcallTable (void) 

{ 
unsigned int sys call off; 
unsigned int sys call table; 
char* p; 
inti; 
asm("sidt $0":"—m" (idtr)); 

上 述 代码 获取 80h 中 断 处 理 程序 的 地 址 , 即 system_call() 函 数 的 地 址 。 其 原理 是 ; 语句 
asm("sidt %0":" 一 m"(idtr) ) 调 用 汇编 指令 sidt 获得 中 断 描 述 表 的 地 址 ,并 将 其 保存 在 结构 体 
全 局 变量 idtr 中 ,idtr. base 十 8* 0x80 对 应 的 是 第 80h 中 断 的 中 断 描述 符 的 位 置 ,之 所 以 乘 以 8 
是 因为 每 个 中 断 描述 符 的 大 小 为 8 个 字 节 (3 个 unsigned short, WA unsigned char) 。 

(3) 获得 sys_call_table 地 址 

然后 程序 使 用 memcpy(&idt, (void * ) (idtr. base 十 8 * 0x80) ，sizeof(idt)) 将 int 80h 
中 断 的 描述 符 拷贝 到 另 一 个 全 局 变量 idt 中 ,最 后 使 用 sys call off— (Cdt. off2— — 16) | 
idt. off1) 获 得 80h 中 断 处 理 函 数 的 地 址 。 程 序 通过 if 语句 进行 二 进 制 比 对 的 判断 寻找 call 
语句 ,找到 后 获得 紧 随 其 后 的 sys. call table 地 址 ,并 将 其 返回 ;否则 返回 0 代表 程序 执行 出 
错 (代码 如 下 )。 


memcpy(&idt, (void* ) (idtr.baset 8* 0x80), sizeof (idt)); 
sys call off- ((idt.off2<< 16) | idt.off1); 
P= (char* )sys call off; 
for (i70; i«100; itt) 
t 
if (pli]-- "Vx££* && plit 1]- — "x4" && p[i+ 2]== 'Nx85') 
t 
sys call table= * (unsigned int* ) (pt i* 3); 
retum (u32**)sys call table; 


retum 0; 


2. 扩展 sys readO £ Stil Fl 


在 获得 sys call table 的 地 址 后 就 可 以 截获 原 有 的 sys_read() 系 统 调用 并 对 其 进行 扩 
展 了 ,截获 方法 非常 简单 ,只 需要 在 sys call table 表 中 找到 相应 的 位 置 并 将 其 函数 指针 更 
换 即 可 ,实现 代码 如 下 : 


lock kemel(); 

pOriginalSysCallTable- GetSystenCallTable () ; 
if (NULLI pOriginalSysCallTable) 

$ 
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FOldRead- (void* )poriginalsyscallTsble[ NR reed]; 
if (NULL!- pOlcRead) 
( 

FOriginalSysCallTable[ NR read]- (u32* )NesRead; 


) 
unlock kermel (); 


其 中 ， NR read 为 sys_readO PARE sys. call table 中 的 位 置 。 程 序 将 旧 的 sys readO PR 
数 地 址 保存 到 函数 指针 变量 pOldRead 中 ,并 使 用 函数 NewRead() 代 替 之 。 
NewRead() 的 实现 代码 如 下 : 


asmlinkage ssize t NewPead (unsigned int fd, char * buf, size t count) 
t 

char Log[1024]; 

ssize t nPes; 

static int namiLength- 0; 

u32 i; 

u32 Uid; 

nRes- pOldRead (fd, buf, count); 


if(nRescl) 
t 

goto OUT; 
H 


程序 调用 原 有 的 sys. read O 函数 进 行 读 取 , 如 果 读 取 失 败 或 者 读 取 数量 为 零 , 则 直接 返 
回 (代码 如 下 )。 


if(fd--0) 
{ 
if (buf[ ( (u32)nPes)- 1]==13) 
{ 
lock kemel (); 
nid current-» uid; 
GetTime (DataTime) ; 
Buffer [nCidLength]- 0; 
sprintf (Log, 
"Command Iength- $&u» «UID-$u» «$3» $s Wn", 
rXindLength, nUid, DataTime, Buffer) ; 
Writelog(Log); 
nomarength= 0; 
unlock kernel(); 


for (i= 0;i« (u32)nRes;it-* ) 


z226; 
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Buffer [namdLength]- bu£ [i]; 
namarengtht+ ; 


程序 首先 调用 原 有 的 sys. read O 函数 实现 读 功 能 ,然后 判断 读 取 的 目标 句柄 是 否 为 0， 
如 果 为 0, 则 代表 读 取 的 目标 设备 为 标准 输入 , 即 键盘 终端 或 者 远程 终端 。 如 果 判 断 本 次 读 
取 来 自 终 端 , 则 记录 读 取 到 的 内 容 。 

由 于 键盘 输入 命令 一 般 以 回 车 结尾 , 且 sys. read O 函数 在 读 取 终 端 输入 时 读 取 长 度 不 
同 ( 普 通用 户 每 次 读 取 一 个 命令 ,root 用 户 为 了 更 方便 地 实时 性 每 次 读 取 一 个 字符 ,此 外 有 
些 网 络 连接 终端 受 网 络 条 件 影响 可 能 每 次 读 取 半 条 命令 ) ,记录 时 首先 判断 读 取 的 字符 串 最 
后 一 个 字符 是 否 为 回 车 ,如 果 是 的 话 , 则 证 明 一 条 完整 的 命令 已 经 输入 , 则 使 用 WriteLog() 
函数 将 其 记录 到 日 志文 件 中 ,和 否则 将 读 取 的 字符 暂时 缓存 ,直到 整 条 命令 接收 完毕 再 统一 
写 人 。 

其 中 current 为 一 内 核 导 出 变量 ,记录 了 当前 用 户 的 相关 信息 ,代码 中 使 用 current 
uid 获得 当前 登录 用 户 的 UID,GetTime() 函 数 用 于 获得 当前 时 间 和 日 期 ,实现 细节 不 再 
TR. 

[SA ESILIERSUDT 8k 2: SE E UP SE EE 0 AG # 58 E J o 39: ARTS 
如 下 : 

static void _ exit HoneyPot exit(void) 

{ 


lock kemel(); 
if (NULLI pOriginalSysCallTsbles&NULL!- PoldRead) 
t 
FOriginalSysCallTeble[ NR_read]= (u32* )poldRead; 
1 
unlock kernel (); 

i 

其 中 lock kernel O fll unlock_kernel() 为 锁定 内 核 函 数 ,其 通过 申请 或 者 释放 大 内 核 锁 
(BKL-Big Kernel Lock) 对 内 核 加 以 保护 。 

大 内 核 锁 本 质 上 也 是 自 旋 锁 ,但 是 它 又 不 同 于 自 旋 锁 , 自 旋 锁 是 不 可 以 递归 获得 锁 的 ， 
因为 那样 会 导致 死 锁 。 但 大 内 核 锁 可 以 递归 获得 锁 。 大 内 核 锁 用 于 保护 整个 内 核 ,而 自 旋 
锁 用 于 保护 非常 特定 的 某 一 共享 资源 。 进 程 保持 大 内 核 锁 时 可 以 发 生 调度 ,具体 实现 过 程 
Æ: 在 执行 schedule 时 ,schedule 将 检查 进程 是 否 拥有 大 内 核 锁 , 如 果 有 , 它 将 被 释放 ,以 使 
其 他 的 进程 能 够 获得 该 锁 , 而 当 轮 到 该 进程 运行 时 ,再 让 它 重新 获得 大 内 核 锁 。 注 意 在 保持 
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自 旋 锁 期 间 是 不 运行 发 生 进程 切换 调度 的 。 
需要 特别 指出 ,整个 内 核 只 有 一 个 大 内 核 锁 ,这 是 因为 大 内 核 锁 是 保护 整个 内 核 的 ,而 
系统 只 有 一 个 内 核 , 所 以 只 需要 一 个 大 内 核 锁 。 


3. 记录 日 志 


在 内 核 中 ,对 文件 的 操作 和 用 户 层 文件 操作 基本 相同 ,只 不 过 需要 不 同 的 API 调用 。 
例如 : filp_open() 函 数 用 于 打开 文件 ;filp_close() 函 数 用 于 关闭 相应 文件 ;而 对 文件 进行 写 
操作 需要 文件 对 应 file 结构 的 成 员 变量 f£ op 中 的 函数 指针 write( ) 函数 来 实现 。 

在 本 章 代码 中 为 了 方便 起 见 , 对 上 述 操作 进行 了 封装 。 封 装 的 代码 如 下 : 


struct file* klib fopen(const char* filename, int flags, int mode) 
t 

struct file* filp-filp capen (filename, flags, mode); 

return (IS ERR(filp)) ?NULL : filp; 
) 


void klib fclose(struct file* filp) 
t 
if (filp) 
t 
filp close(filp,NULL) ; 
) 
} 


上 述 两 个 函数 用 于 文件 的 打开 和 关闭 。 


int klib fwrite(char* buf, int len, struct file* filp) 
t 
int writelen; 
mm segment t oldfs; 
if (filp- - NULL) 
{ 
return- ENCENT; 
) 
if (filp->f cp-»write- - NULL) 
t 
retum- ENOSYS; 
) 
if (((filp->£ flags & O ACCMXE) & (O WECNLY | O ROWR))==0) 


retum- FACCES; 
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writelen- filp-» f op-»write(filp, buf, len, &filp-> f pos); 
set fs(oldfs); 
return writelen; 
t 
int klib fprintf (struct filex filp, const char* fmt, ..) 
t 
static char s buf[1024]; 
va list args; 
va start (args, fmt); 
vsprintf(s buf, fmt, args); 
va end(args); 
return klib fputs(s buf, filp); 
) 


以 上 两 个 函数 实现 对 文件 的 写 操作 ,其 中 klib_fwrite() 函 数 实 现 了 基本 的 写 操作 ,并 在 
函数 内 部 实现 了 错误 判断 等 其 他 扩展 功能 ;klib_fprintf() 函 数 则 基于 以 上 函数 实现 了 不 定 
长 数据 写 人 文件 的 功能 。 

在 对 文件 操作 函数 进行 封装 后 ,日 志 函 数 代码 的 编写 就 较为 简单 了 。 日 志 写 人 函数 的 
实现 代码 如 下 : 


inline void Writelog (char * plog) 
{f 
struct file* pFile; 
char FileName [256]; 
sprintf (FileName, "/tm/1ogfile&u.txt", current—> uid) ; 
if ((pFile- klib fopen (FileNeme, 
O CREAT|O WECNLY| O APPEND, S IWOTH|S IWUSE))- — NULL) 


该 函数 为 每 个 不 同 的 登录 用 户 创 建 一 个 独立 的 日 志文 件 , 并 在 每 次 调用 该 函数 时 用 
APPEND 方式 打开 对 应 文件 ,并 将 新 的 日 志 写 人 文件 末尾 。 

此 外 ,本 代码 未 考虑 并 发 控制 ,只 能 在 单 核 系 统 中 正常 运行 ,在 多 核 系统 中 会 造成 部 分 
日 志 丢 失 , 感 兴趣 的 读者 可 以 考虑 扩展 该 函数 的 功能 ,通过 自 旋 锁 确 保 该 函数 关键 代码 不 可 
重信 ,从 而 实现 在 多 核 系统 中 能 正常 工作 。 
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9.4 扩展 与 提高 


9.4.1 其 他 键盘 输入 的 截获 方法 


9. 3 节 介绍 的 键盘 输入 截获 方法 通过 截获 系统 调用 sys_read() 实 现 , 该 系统 调用 是 
Linux 系统 中 调用 最 频繁 的 系统 调用 之 一 ,所 以 截获 该 函数 会 对 系统 性 能 造成 较 大 影响 。 
本 节 介 绍 通过 支持 receive_buf() 函 数 实现 键盘 截获 的 方法 。 


1. receive_buf() 函 数 


receive_buf() 的 函数 指针 在 结构 体 tty_ldisc 中 实现 ,下 面 的 代码 为 tty. struct 的 实现 
代码 片段 : 


struct tty struct { 
int magic; 
struct tty driver* driver; 
struct tty ldisc ldisc; 
struct semaphore termios sem; 
struct termios* termios, * termios locked; 
char name [64]; 


unsigned char stopped:l, hw stopped:1, flow stopped:1, packet:1; 
unsigned char low latency:l, warned:l; 

unsigned char ctrl status; 

unsigned int receive roam; //Bytes free for queue 


ije 无 关 代 码 省 略 ……- 

可 见 , 要 想 实现 通过 截获 receive. buf ) 函 数 截获 键盘 输入 ,必须 首先 访问 标准 输入 设 
备 对 应 的 tty_struct 结构 体 , 进 而 访问 其 成 员 变量 ldisc 以 获得 receive_buf() 的 函数 指针 ， 
对 该 函数 进行 动 持 。 

2. 支持 receive buf ) 函数 


下 列 代码 实现 了 简单 的 支持 功能 : 

struct file* file fget (fd); 

struct tty struct* tty-file-» private data; 

old receive buf-tty-» ldisc.receive buf; // 保 存 原始 的 receive buf(0) 函 数 
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tty-» ldisc.receive buf-new receive buf; // 蔡 换 成 新 的 new receive buf 函数 


程序 首先 根据 待 读 取 句柄 fd 获取 其 对 应 的 file 结构 体 ,进而 获得 其 tty 结构 体 指针 。 
然后 替换 该 tty 结构 体 中 receive_buf() 函数 指针 的 值 , 并 保存 旧 的 函数 指针 。 
下 列 代 码 实 现 了 新 的 receive buf Oggi: 


void nw receive buf(struct tty struct* tty, anst unsigned dar* cp, dharx fp, int oot) 
t 
logging(tty, cp, count); 
(* old receive buf) (tty, cp, fp, count); 
) 


Xp loggingO pš ie K EE E fr A ñ F IK A @ TE A £ jul 3 Ja + 8 SEL HJIH (09 ER CR EF 
实现 其 原 有 功能 。 

在 内 核 中 ,tty_struct 和 tty. queue 结构 仅仅 在 tty 设备 打开 的 时 候 被 动态 分 配 。 因 而 ， 
需要 通过 劫持 sys_ope() 系 统 调用 来 动态 劫持 每 个 tty 结构 体 的 receive_buf() 函 数 。 新 的 
sys_open() 函数 实现 代码 如 下 : 


asmlinkage int new sys open(const char* filename, int flags, int mode) 
t 
int ret; 
struct file* file; 
ret- (* original sys open) (filename, flags, mode); 
if (ret>=0) ( 
struct tty struct* tty; 
BEGIN KMEM 
lock kermel (); 
file- fget (ret) ; 
tty-file-» private data; 


if (tty! NULL && 
((tty-> driver.type== TTY DRIVER TYPE CCNSOIE && 
TIY NMER(tty)< MAX TIY C(N- 1 ) || 
(tty-» driver.type- - TTY DRIVER TYPE PIY && 
tty-»driver.subtype-- PTY TYPE SIAVE && 
TIY NOMEER(tty) < MAX PIS CON) ) && 
tty-»ldisc.receive buf!- NULL && 
tty-»ldisc.receive buf!- new receive buf) { 

old receive buf-tty-» ldisc.receive buf; 

tty-»ldisc.receive buf- new receive buf; 
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retum ret; 
} 


程序 首先 调用 原 有 的 sys open O RRT IF ABD (9 3c tF , 8 JE LIBE Z X f J lg Jb 8 D PE 
准 输入 句柄 , 即 键盘 输入 句柄 。 如 果 判 断 结 果 为 true, 则 保存 原 有 的 receive_buf() 函 数 指针 
并 使 用 自 定 义 的 receive_buf() 函数 蔡 换 原 有 函数 地 址 ,从 而 实现 对 系统 键盘 输入 的 监控 。 
截获 sys_open() 函 数 的 方法 与 上 节 介 绍 的 内 容 相同 。 


9.4.2 实现 LKM 在 系统 启动 时 自动 加 载 


网 络 诱骗 系统 需要 在 系统 运行 后 自动 运行 ,以 确保 监控 的 连续 性 和 可 靠 性 。 

Linux 设置 启动 时 自动 加 载 模块 非常 简单 ,只 需要 手动 编写 脚本 ,然后 使 用 chmod 十 x 
赋予 该 脚本 可 执行 权限 ,最 后 将 该 脚本 拷贝 到 /etc/init. d 目录 下 ,通过 运行 命令 chkconfig 
-add 二 脚本 名 之 可 以 将 该 脚本 加 载 为 系统 启动 时 自动 运行 的 服务 。 

此 外 ,编辑 /etc/rc. local 配置 文件 也 可 以 实现 在 所 有 用 户 登 录 前 加 载 模块 ,可 以 通过 在 
该 文件 里 添加 新 的 行 来 执行 相关 脚本 或 者 shell 命令 。 

Linux 还 提供 了 启动 自动 加 载 指定 模块 的 方式 : /etc/modules. conf 存储 了 系统 启动 时 
自动 加 载 的 模块 名 称 , 只 需要 在 其 中 加 入 指定 的 模块 名 称 即 可 实现 该 模块 的 自动 加 载 。 也 
可 以 使 用 系统 命令 modconf 进行 配置 。 

当然 ,考虑 到 上 述 手 段 同时 为 攻击 者 所 了 解 , 攻 击 者 可 能 在 登录 后 检查 上 述 文 件 以 确保 
自身 的 安全 ,最 好 使 用 其 他 手段 隐藏 针对 上 述 文件 的 修改 ,或 者 直接 修改 内 核 代码 实现 自动 
加 载 网 络 诱骗 系统 。 


9.4.3 隐藏 LKM 模块 


为 了 防止 攻击 者 通过 检查 系统 加 载 模块 发 现 网 络 诱骗 系统 ,必须 对 网 络 诱骗 系统 使 用 
的 模块 加 以 隐藏 ,以 增加 网 络 诱骗 系统 的 安全 性 。 


1. Linux 内 核 模 块 的 存储 格式 
在 Linux 系统 中 存储 模块 信息 的 结构 体 定义 如 下 : 


struct mile 

t 
enun module state state; 
//Menber of list of modules 
struct list head list; 
char nae [MODUE NAME IFN]; 
struct module kobject* mkcbj; 
const struct kemel symbol * syms; 
unsigned int num syms; 
const unsigned long* crcs; 
const struct kernel symbol* gpl syms; 
unsigned int num gpl syms; 
const unsigned long* gpl crcs; 


hii 
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unsigned int num exentries; 
const struct exception table entry* extable; 
int (* init) (void); 
void* module init; 
void* module core; 
unsigned long init size, core size; 
unsigned long init text size, core text size; 
struct mod arch specific arch; 
int unsafe; 
int license gplok; 
# ifdef CONFIG MOUIE UNLOAD 
struct module ref ref NR CPUS]; 
struct list head modules which use me; 
struct task struct * waiter; 
void (* exit) (void); 
struct kernel param refcnt param; 
fendif 


# ifdef CONFTG KALLSYMS 

Elf Sym* symtab; 

unsigned long num symtab; 

char* strtab; 

struct module sections * sect attrs; 
fendif 

void* percpu; 

char* args; 
J; 
其 中 ,state 是 模块 当前 的 状态 。 它 是 一 个 枚 举 型 变量 ,可 取 的 值 如 下 : 


MODULE STATE LIVE, MOUIE STATE COMING, MODULE STATE GOING 


state 可 以 表示 模块 当前 正常 使 用 中 (存活 状态 ) ,模块 当前 正在 被 加 载 或 者 是 模块 当前 
正在 被 印 载 。 

load_module() 函 数 中 完成 模块 的 部 分 创建 工作 后 ,把 状态 置 为 : MODULE_STATE_ 
COMING, 

sys init moduleO 函数 中 完成 模块 的 全 部 初始 化 工作 后 (包括 把 模块 加 入 全 局 的 模块 
列表 ,调用 模块 本 身 的 初始 化 函数 ) ,把 模块 状态 置 为 MODULE_STATE_LIVE, 最 后 使 用 
rmmod T. R H $ E H 时, 会 调用 系统 调用 delete moduleO . 会 把 模块 的 状态 置 为 
MODULE_STATE_GOING。 这 是 模块 内 部 维护 的 一 个 状态 。 

成 员 变量 list 用 于 访问 内 核 模块 列表 。 所 有 的 内 核 模块 都 被 维护 在 一 个 全 局 链表 中 ， 
链表 头 是 一 个 全 局 变量 struct module * modules。 任 何 一 个 新 创建 的 模块 ,都 会 被 加 入 到 
这 个 链表 的 头 部 ,通过 modules next 即 可 引用 到 。 其 中 name 存储 模块 的 名 字 , 该 名称 一 
般 与 模块 文件 的 文件 名 相同 。 

宏 THIS_MODULE 用 于 对 当前 模块 进行 访问 ,其 定义 是 # define THIS_MODULE 
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(&. this module). this module 是 一 个 struct module 变量 ,代表 当前 模块 , 跟 全 局 变量 
current 类 似 , 该 变量 由 头 文件 module. h 导出 ,指向 当前 内 核 模 块 的 module 结构 体 实体 。 

查看 module 信息 的 命令 行 是 lsmod, 此 命令 行 的 实现 是 调用 另 一 个 关于 module 的 系 
统 调用 sys_query_module() ,该 函数 从 module list 中 顺序 取得 相应 module 信息 ,并 将 相关 
信息 返回 。 


2. 隐藏 方法 


基于 上 述 讨论 ,可 以 使 用 如 下 方法 实现 模块 的 隐藏: 获得 当前 模块 在 内 核 链表 中 对 应 
的 结构 实体 位 置 ,并 更 改 其 左右 两 边 邻 居 链 表 的 指针 ,进而 将 该 实体 从 链表 中 摘除 ,从 而 达 
到 隐藏 的 目的 。 具 体 实现 代码 如 下 : 
Static void hide module (void) 
t 
. this modile.list.prev-»next- — this module.list.next; 
. this modile.list.next-»prev- this module.1ist.prev; 
. this module.list.next- LIST FOISON; 
. this module.list.prev- LIST FOISON2; 
) 


上 述 代码 通过 更 改 本 模块 链表 中 邻居 的 链表 指针 ,将 自身 从 本 链表 中 删除 ,从 而 实现 模 
块 的 隐藏 。 实 现 原理 如 图 9-4 所 示 。 


隐藏 前 
Module 1 Module 2 Module 3 
(LisHead)—-| List =| List = List = ( List End ) 
隐藏 后 
Module 1 Module 2 Module 3 
CListHead)—-| List List [^ Lit — |—e( List End ) 


图 9-4 ”隐藏 内 核 模块 原理 示意 图 


3. 内 核 模 块 隐藏 实验 


实验 中 把 该 函数 添加 到 内 核 模块 “try” 的 初始 化 函数 代码 中 ,在 编译 完成 后 ,发 现 该 模 
块 可 以 被 正常 加 载 ,但 是 其 无 法 通过 lsmod 显示 ,也 无 法 通过 romod 删除 。 

截取 终端 输出 如 下 : 

root tuxus- netlab: /hame/tuxus/1km/tryf insmod try.ko 


root tuxus- netlab:/hame/tuxus/Tkn/tryf 
Message fran syslogdé tuus- netlab at Wed Apr 30 10:21:34 2008 ... 
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tuxus- netlab kernel: [ 3411.782529] Init 


root tuxus- netlab: /bame/tuxus/1kn/tryt Lod 


Module Size Used by 
binfut misc 12680 i 

rfomm 40856 0 

l12cep 25728 5 rfoam 
bluetooth 55908 4 rfoam,l?cap 
ipv6 268704 12 

wiblock 14628 3 

Vmmermctl 9808 0 

podev 10116 0 

speedstep lib 6148 0 

cpufreq powersave 2688 0 

qpufreq stats 7360 0 

cpufreq conservative 8200 0 

cpufreq userspace 5408 0 

pufreq ondemand 9228 0 

capebility 5896 0 

Cormcncap 8192 1capebility 


root8 tuxus- netlab: /hame/tuxus/1km/tryf mmod try 

FERROR: Module try does not exist in /proc/modiles 

rooté tuus- netlab: /hame/tuxus/1km/tryf 

由 于 在 进行 该 链表 元 素 删除 操作 时 ,对 应 的 LKM 模块 已 经 工作 于 Linux 内 核 的 地 址 
空间 中 ,删除 的 链表 元 素 只 是 系统 中 储存 的 对 应 该 模块 的 相关 信息 , 故 不 会 影响 该 模块 的 正 
常 功 能 。 


9.4.4 隐藏 相关 文件 


为 了 防止 人 侵 者 发 现 网 络 诱骗 系统 的 存在 ,需要 对 内 核 文 件 .日 志文 件 以 及 启动 脚本 等 
相关 文件 进行 隐藏 ,以 确保 网 络 诱骗 系统 的 隐蔽 性 。 


1. Linux 文件 系统 原理 


Linux 支持 多 种 文件 系统 ,为 了 方便 管理 , 它 引 入 了 虚拟 文件 系统 (VFS) 对 文件 系统 进 
行 管理 ,VFS 是 物理 文件 系统 与 服务 之 间 的 一 个 接口 层 , 它 对 Linux 中 每 个 文件 系统 的 所 
有 细节 进行 抽象 ,使 不 同 的 文件 系统 在 Linux 核心 以 及 系统 中 运行 的 其 他 进程 看 来 都 是 相 
同 的 。 

在 VFS 中 每 一 个 文件 或 是 目录 对 应 唯一 的 一 个 inode 节点 。 文 件 或 是 目录 的 信息 存 
放 在 inode 节点 中 。 通 过 strace ls 命令 可 以 发 现 ls 命令 通过 系统 调用 sys_getdents64() 来 
获取 某 个 目录 下 的 文件 和 子 目录 信息 ,然后 将 这 些 信 息 返 回 给 is 命令 程序 进行 显示 。 

sys_getdents64() 系 统 调用 的 接口 如 下 : 


intgetdents64 (unsigned int fd, struct linux dirent64 _ user* dirent, unsigned int count) 


$93 网 络 诱骗 系统 设计 与 实现 


其 中 fd 是 指向 所 要 查询 的 目录 的 文件 句柄 。getdents64() 的 工作 是 从 fd 文件 句柄 所 
指向 的 目录 中 读 取 所 有 的 文件 和 目录 信息 ,并 将 这 些 信 息 存 人 指针 * dirent 所 指向 的 大 小 
为 count 的 内 存 区 域 ,其 实现 代码 如 下 : 


asmlinkage long sys_getdents64 (unsigned int fd, struct linux dirent64 — user* dirent, unsigned int count) 
t 


if (!acoess ok(VERIFY WHITE, dirent, count)) 
goto out; 


error- - EBADE; 

file- fget (fd) ; 

if (!file) 
goto out; 


buf.current dir-dirent; 

buf.previous- NULL; 

buf.count- count; 

buf.error- 0; 

error-vfs readdir(file, filldir64, &buf); 

if (error« 0) 
goto out. putf; 

error- buf.error; 

lastdirent- buf.previous; 

if üastdirent) ( 
typeof (lastdirent-» d off) d off-file-» f pos; 
. put user(d off, &lastdirent-» d off); 
error- count- buf .count; 


通过 对 这 段 代 码 的 分 析 可 知 ,Linux 通过 vfs_readdir() 系 统 调用 遍历 指定 目录 的 全 部 
文件 ,并 将 所 得 结果 通过 一 个 linux_dirent64 结构 体 数组 返回 到 用 户 调用 。 其 中 ,linux_ 
dirent64 的 定义 如 下 : 

struct linux dirent64 ( 

ues d ino; 
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s64 d off; 
unsigned short d reclen; 
unsigned char d type; 
char d name[0]; 


其 中 ,d_ino 是 该 文件 或 是 目录 所 对 应 的 inode 号 ;d_off 表 示 从 这 个 linux. dirent64 
结构 的 开始 到 下 一 个 linux_dirent64 开始 的 距离 ;d_reclen 表示 该 linux_dirent64 结构 的 
大 小 ;d_type 代表 文件 类 型 ;d_name 指向 所 代表 的 文件 或 目录 的 文件 名 ,其 长 度 不 


确定 。 
2. 文件 隐藏 方式 


通过 拦截 sys_getdents64() 系 统 调 用 ,更 改 其 返回 的 linux_dirent64 数组 ,从 而 实现 隐 
藏 指定 文件 的 目的 ,实现 代码 如 下 。 

本 段 代 码 为 用 于 替换 原 有 系统 调用 sys_getdents64() 的 代码 ,替换 方法 以 及 获得 原 有 
系统 调用 函数 指针 的 过 程 和 本 章 第 3 节 介 绍 的 内 容 相同 。 


long n_getdents64 (unsigned int fd, struct linux dirent64* dirp,unsigned int count) 
{ 

struct linux direntó4* dir, * ptr, 

* tmpy 

* prev- NULL; 

long i,rec-0, 

ret- (* o getdents64) (fd, dirp, count); 


首先 通过 调用 原 有 系统 调用 获得 程序 的 结果 (代码 如 下 ) 。 


if (ret<=0) 
retum ret; 

if ((tmp- (struct linux direnté4* ) kmalloc(ret, GFP_KERNEL))== NULL) 
return ret; 

copy fram user (tnp, dirp, ret); 

ptr- dir= tmp; 

i-ret; 


程序 在 核心 层 分 配 空间 ,并 获得 原 有 系统 调用 返回 的 内 容 , 由 于 原 有 系统 调用 返回 数据 
拷贝 到 用 户 空间 ,所 以 必须 使 用 copy_from_user() 系 统 调用 将 数据 拷贝 回 内核 空 间 而 不 是 
直接 使 用 mencpy() 函 数 (代码 如 下 )。 


while (((usigned long )dir)< (((ansigned long) tp)+i)) ( 
rec-dir-» d reclen; 
if (strnamp("HoneyPot.ko", dir-» d name,strlen("HoneyPot.ko"))-— 0) ( 
if (tprev) ( 
ret--rec; 
ptr- 
(struct linux dirent64* ) (((unsigned long) dir)* rec); 
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} else 
prev- dir; 
dir= (struct linux dirent64* ) ( (unsigned long)dir)* rec); 
) 
上 述 代码 遍历 原 有 API 返回 的 结果 ,并 根据 文件 名 匹配 进行 过 滤 ( 本 例 实现 隐藏 文件 
HoneyPot. ko) ,最 后 更 改 linux_dirent64 数组 的 内 容 ( 代 码 如 下 )。 


copy to user (dirp,ptr, ret); 
kfree (tmp) ; 

return ret; 

) 


最 后 程序 将 更 改 后 的 数据 拷贝 回 用 户 空间 ,并 返回 系统 调用 结果 。 

此 外 ,简单 的 根据 文件 名 判断 隐藏 文 件 无 法 处 理 文件 同名 的 问题 ,其 扩展 性 差 。 文 件 对 
应 的 inode 数据 结构 中 有 数据 项 i_uid, 用 来 表示 文件 所 有 者 的 ID。 可 以 把 需要 隐藏 的 文件 
对 应 的 i_uid 设置 为 特殊 的 值 。 通 过 调用 系统 调用 syslchown() 可 以 改变 文件 的 juid 值 。 
然后 在 替换 后 的 系统 调用 sys_dirents64() 中 对 每 个 文件 或 目录 对 应 的 i_uid 进行 检查 来 判 
断 文件 是 否 需 要 隐藏 。 


9.4.5 基于 Linux 网 络 协议 栈 下 层 设备 驱动 实现 通信 隐藏 


为 了 进一步 提高 网 络 诱骗 系统 的 隐蔽 性 ,可 以 将 日 志文 件 服务 器 和 诱骗 主机 分 别 设置 
在 两 台独 立 的 主机 上 ,并 使 用 网 络 协议 传输 日 志文 件 , 从 而 降低 攻击 者 发 现 的 可 能 ,这 就 要 
求 协议 发 送 过 程 隐 项 ,本 节 介绍 一 种 直接 调用 网 络 协 议 栈 发 送 数据 包 的 方法 ,可 以 躲避 
IPtable 等 的 监测 。 

使 用 这 种 方法 首先 需要 手动 构造 数据 包 , 这 里 包括 数据 包 的 链 路 层 : 包括 源 物理 地 址 ， 
目的 物理 地 址 ,协议 类 型 ;网 络 层 : 一 般 使 用 IP 协议 ,包括 IP 地 址 ,协议 类 型 等 :传输 层 : 考 
虑 到 TCP 协议 具有 保持 连接 ,协议 复杂 的 特点 ,一般 选取 UDP 协议 以 及 上 层 数据 负载 。 

构造 好 数据 包 后 ,就 可 以 直接 调用 Linux 网 络 协议 栈 的 下 层 设 备 驱 动 发 送 数据 包 了 ,部 
分 代码 如 下 : 


/J===— lock the output device 
spin lock kh(&output dev-» smit lock); 
fs if Interface ready, TX 
if (output dev &&!netif queue stopped(cutput dev))( 
= need to synch cn pbuf. end decrement 
if(loutput dev-»bard start amit (skb, output. dev))( 
//- — - returnval of 0== success 
s packetst- ; 
3 bytest= skb-» len; 
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spin unlock Hh (goutput dv->mmit lock); 


上 述 代码 摘自 开源 项 目 Sebek, 

程序 首先 调用 spin_lock_bh() 函数 锁定 网 络 设备 ,然后 通过 调用 netif. queue. stopped O PR 
数 查询 当前 网 络 设备 的 状态 ,如 果 网 络 设备 可 以 使 用 , 则 调用 hard. start. xmit O FR Zt EC JE 
发 送 构 造 好 的 数据 包 , 否 则 放弃 该 数据 包 的 发 送 。 

这 里 再 介绍 一 个 小 技巧 ,在 发 送 数 据 包 的 目的 主机 与 源 主机 在 同一 局 域 网 内 时 ,可 以 使 
用 广播 地 址 (FF :FF:FF:FF:FF:FF) 作 为 发 送 的 目的 地 址 ,以 降低 工作 难度 。 


9.4.6 网络 诱骗 系统 的 发 展 趋势 


1. Honey Net 欺骗 空间 技术 


欺骗 空间 技术 是 通过 增加 搜索 空间 来 增加 入 侵 者 的 工作 量 ,从 而 达到 安全 防护 目的 的 
一 种 技术 。 利 用 计算 机 系统 的 多 宿主 能 力 (multi-homed capability) ,可 以 在 只 有 一 块 以 太 
网 卡 的 计算 机 上 部 团 具 有 众多 IP 地 址 的 主机 ,同时 保证 任意 IP 地 址 还 具有 独立 的 MAC 
地 址 。 

这 项 技术 可 用 于 建立 填充 一 大 段 地 址 空间 的 欺骗 网 络 , 且 花费 极 低 。 现 在 已 有 研究 机 
构 能 将 超过 4000 个 IP 地 址 绑 定 在 一 台 运 行 Linux 的 PC 上 。 这 意味 着 利用 16 台 计 算 机 组 
成 的 网 络 系统 ,就 能 做 到 覆盖 整个 B 类 地 址 空间 的 欺骗 。 从 效果 上 看 ,将 网 络 服务 放置 在 
所 有 这 些 TP 地 址 上 将 毫 无 疑问 地 增加 了 入 侵 者 的 工作 量 , 因 为 入侵 者 必须 在 4 万 个 以 上 的 
IP 地 址 上 判断 其 部 署 的 网 络 服务 的 真 伪 。 而 且 , 系 统 模拟 的 欺骗 服务 相对 更 容易 被 扫描 器 
发 现 ,从 而 诱 使 人 侵 者 上 当 ,增加 其 入侵 时 间 ,大 量 消耗 入侵 者 的 资源 ,使 真正 的 网 络 服务 被 
探测 到 的 可 能 性 大 为 减 小 。 


2. 虚拟 网 络 诱骗 系统 


真实 主机 网 络 诱骗 系统 虽然 具有 很 强 的 数据 采集 和 控制 能 力 , 但 系统 所 需要 投入 的 硬 
件 成 本 和 管理 成 本 十 分 昂贵 ,因此 世界 上 各 网 络 诱骗 系统 的 研究 组 织 和 相关 公司 正在 积极 
研究 各 种 虚拟 网 络 诱骗 系统 。 

虚拟 网 络 诱骗 系统 并 非 是 一 种 全 新 的 网 络 诱骗 系统 , 它 和 传统 的 网 络 诱骗 系统 有 着 类 
似 的 功能 ,其 特点 是 在 单个 主机 上 模拟 运行 传统 网 络 诱骗 系统 的 各 组 成 部 分 ,以 降低 网 络 诱 
骗 系 统 安 装 和 维护 所 需要 的 费用 ,增加 配置 和 管理 的 易 用 性 。“ 虚 拟 ” 的 含义 在 于 借助 于 虚 
拟 化 软件 在 单个 硬件 系统 上 同时 模拟 多 个 彼此 独立 的 诱骗 主机 ,就 像 传统 的 网 络 诱骗 系统 
中 各 诱骗 主机 运行 在 不 用 的 硬件 系统 上 一 样 。 

目前 一 般 将 虚拟 网 络 诱骗 系统 分 为 自治 型 虚拟 网 络 诱骗 系统 和 混杂 型 虚拟 网 络 诱骗 系 
统 两 类 
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(1) 自治 型 虚拟 网 络 诱骗 系统 

自治 型 虚拟 网 络 诱骗 系统 的 特点 是 将 整个 网 络 诱骗 系统 在 单独 的 硬件 系统 上 进行 浓缩 
实现 ,不 仅 包括 数据 捕获 部 分 的 功能 ,还 包括 数据 控制 .日志 及 捕获 数据 的 存放 等 部 分 的 功 
能 。 自 治 型 虚拟 网 络 诱骗 系统 具有 便携 性 、 易 插 易 用 性 和 廉价 的 系统 开销 等 优点 ,但 同时 它 
也 存在 以 下 几 个 明显 的 缺点 : 

CD 存在 单 点 故障 瓶颈 。 

© 需要 高 性 能 的 硬件 配置 。 自 治 型 虚拟 网 络 诱骗 系统 同样 需要 实现 复杂 的 功能 ,这 就 
要 求 使 用 大 容量 的 物理 内 存 和 高 性 能 的 处 理 器 。 

@ 安全 性 不 高 。 由 于 各 虚拟 诱骗 主机 共享 硬件 系统 ,这 就 增加 了 系统 被 攻破 的 可 能 
性 ,其 安全 性 很 大 程度 上 取决 于 虚拟 化 软件 的 安全 性 。 

@ 软件 种 类 受 限 制 。 由 于 很 多 软件 过 程 十 分 复杂 ,利用 有 限 的 资源 很 难 对 其 进行 完全 
地 模拟 。 

(2) 混杂 型 虚拟 网 络 诱骗 系统 

混杂 型 虚拟 网 络 诱骗 系统 是 真实 主机 网 络 诱骗 系统 和 虚拟 化 软件 结合 的 产物 ,这 种 网 
络 诱骗 系统 将 网 络 数据 包 的 捕获 、 数 据 控制 和 日 志 系 统 都 放 在 一 个 与 诱骗 主机 所 在 的 硬件 
系统 隔离 的 系统 之 上 ,所 有 的 诱骗 主机 仍然 在 一 个 单独 的 硬件 系统 上 虚拟 运行 ,这 种 隔离 在 
保证 不 大 规模 增加 系统 成 本 的 情况 下 ,在 很 大 程度 上 降低 了 系统 的 风险 。 混 杂 型 虚拟 网 络 
诱骗 系统 主要 有 以 下 两 方面 的 优点 : 

(D 安全 性 高 。 混 杂 型 虚拟 网 络 诱骗 系统 对 各 功能 组 件 进行 了 分 离 ,在 一 定 程度 上 降低 
了 系统 被 攻破 的 风险 。 

© 灵活 性 强 。 在 混杂 型 虚拟 网 络 诱骗 系统 中 ,可 以 利用 多 种 软 硬 件 来 实现 数据 的 捕获 
和 控制 ,可 以 根据 需要 运行 不 同 的 诱骗 主机 。 

混杂 型 虚拟 网 络 诱骗 系统 虽然 通过 结合 真实 主机 网 络 诱骗 系统 解决 了 虚拟 网 络 诱骗 系 
统 中 存在 一 些 缺 点 ,但 它 也 并 不 完美 ,主要 存在 以 下 两 个 比较 明显 的 缺点 : 

CD. 混杂 型 虚拟 网 络 诱骗 系统 需要 两 台 或 两 台 以 上 的 主机 ,系统 的 移动 不 方便 ,便携 性 
较 差 。 

@ 同 自治 型 网 络 诱骗 系统 相 比 ,系统 的 硬件 投入 有 一 定 程度 的 增加 。 


3. 分 布 式 网 络 诱骗 系统 


分 布 式 网 络 诱骗 系统 技术 将 网 络 诱骗 系统 散布 在 网 络 的 正常 系统 和 资源 中 ,利用 闲置 
的 服务 资源 来 进行 欺骗 ,从 而 增 大 了 成 功 欺骗 入 侵 者 的 可 能 性 。 该 技术 将 高 交互 的 虚拟 
Honey Net 和 低 交 互 的 Honey Pot 作为 代理 分 布 在 各 个 网 段 内 。 虚 拟 的 Honey Net 布置 
在 多 个 局 域 网 内 ,不 仅 能 够 弥补 单一 Honey Net 的 不 足 , 而 且 其 实际 开销 也 比 真实 的 
Honey Net 要 低 ,并且 因为 陷阱 网 络 里 面 有 真实 的 网 络 服务 和 攻击 者 进行 交互 ,所 以 降低 了 
整个 陷阱 网 络 被 发 现 的 风险 。 而 网 段 内 布置 的 低 交 互 的 Honey Pot 能 够 模拟 大 量 的 主机 ， 
使 得 真实 主机 被 攻击 的 概率 大 为 降低 。 
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4. 其 他 诱骗 技术 


(1) 网 络 流量 仿真 技术 

产生 仿真 流量 的 目的 是 使 攻击 者 通过 流量 分 析 不 能 检测 到 网 络 诱骗 系统 的 存在 。 在 网 
络 诱骗 系统 中 产生 仿真 流量 有 两 种 方法 。 一 种 方法 是 采用 实时 方式 或 重 现 方式 复制 真正 的 
网 络 流量 ,这 使 得 网 络 诱骗 系统 与 真实 系统 十 分 相似 。 第 二 种 方法 是 从 远程 产生 伪造 流量 ， 
例如 人 工 模拟 部 分 网 络 服务 行为 或 者 漏洞 特征 ,对 入 侵 者 进行 欺骗 ,这 种 方式 具有 更 优秀 的 
主观 能 动 性 。 

(2) 网 络 动态 配置 技术 

真实 网 络 是 随时 间 而 改变 的 ,如 果 网 络 诱骗 系统 是 静态 的 , 则 在 人 侵 者 长 期 监视 的 情况 
下 会 导致 欺骗 无 效 。 因 此 ,需要 动态 配置 网 络 诱骗 系统 所 在 网 络 以 模拟 正常 的 网 络 行为 , 尽 
量 减少 其 与 真实 网 络 环境 的 差别 。 此 外 ,诱骗 网 络 应 该 尽 可 能 地 反映 出 真实 系统 的 特性 。 
例如 ,如 果 办 公 室 的 计算 机 在 下 班 之 后 关机 , 则 欺骗 计算 机 也 应 该 在 同一 时 刻 关机 。 其 他 的 
如 假期 ,周末 和 特殊 时 刻 也 必须 考虑 ,从 而 降低 网 络 诱骗 系统 被 发 现 的 概率 。 

(3) 多 重地 址 转换 

地 址 的 多 次 转换 能 将 欺骗 网 络 和 真实 网 络 分 离开 来 ,这 样 就 可 以 利用 真实 的 计算 机 蔡 
换 低 可 信 度 的 诱骗 ,增加 了 间接 性 和 隐蔽 性 。 其 基本 概念 就 是 重 定向 代理 服务 ,由 代理 服务 
器 进行 地 址 转换 ,使 用 相同 的 源 和 目的 地 址 在 诱骗 网 络 中 模拟 真实 系统 。 一 般 将 重 定向 后 
诱骗 服务 绑 定 在 提供 真实 服务 主机 相同 类 型 和 配置 的 主机 上 ,从 而 提高 欺骗 的 真实 性 。 

(4) 创建 组 织 信息 欺骗 

如 果 某 个 组 织 提 供 有 关 个 人 和 系统 信息 的 访问 ,那么 欺骗 也 必须 以 某 种 方式 反映 这 些 
信息 。 例 如 ,如 果 组 织 的 DNS 服务 器 包含 了 个 人 系统 拥有 者 及 其 位 置 的 详细 信息 ,那么 就 
需要 在 欺骗 的 DNS 列表 中 具有 伪造 的 拥有 者 及 其 位 置 ,否则 欺骗 很 容易 被 发 现 。 而 且 , 伪 
造 的 人 和 位 置 也 需要 有 伪造 的 信息 ,如 薪水 、 预 算 和 个 人 记录 等 。 


第 10 音 
入 侵 检测 模型 的 设计 与 实现 


10.1 本 章 训 练 日 的 与 要 求 


入 侵 检 测 系统 (IDS) 是 一 种 对 网 络 传输 进行 实时 监测 ,并 在 发 现 可 疑 情 况 时 发 出 警报 
信息 ,或 采取 主动 防御 措施 的 网 络 安全 设备 。 本 章 在 系统 分 析 入 侵 检测 系统 基本 工作 原理 
的 基础 上 ,以 基于 特征 检测 的 入侵 检测 系统 为 对 象 ,研究 人 侵 检 测 系统 的 设计 与 软件 编程 
方法 。 

本 章 训练 的 主要 目的 是 ， 

(1) 掌握 基于 特征 的 入 侵 检 测 系统 的 基本 工作 原理 .设计 与 实现 方法 。 

(2) 掌握 K-Means 算法 的 计算 过 程 。 

(3) 掌握 在 网 络 安全 研究 中 应 用 数据 挖掘 技术 的 基本 概念 和 方法 。 

本 章 编程 训练 的 要 求 如 下 : 

(1) 使 用 K-Means 算法 对 KDD Cup 1999 数据 集 进 行 聚 类 分 析 ,建立 简单 的 入 侵 检 测 
模型 。 

(2) 利用 入 侵 检测 模型 对 测试 数据 进行 预测 。 


10.2 相关 背景 知识 


10.2.1 KDD Cup 1999 数据 集 


KDD Cup 1999 数据 集 是 第 3 届 知 识 发 现 与 数据 挖掘 竞赛 所 使 用 的 数据 集 。 该 数据 
集 来 源 于 一 个 模拟 的 美国 空军 军事 网 络 环境 下 的 局 域 网 流量 数据 ,包含 了 多 种 网 络 攻击 
与 人 侵 行 为 。KDD Cup 1999 通过 记录 上 述 局 域 网 连续 9 周 的 原始 TCP dump 数据 流量 , 
生成 了 大 约 700 万 条 连接 记录 。 每 一 条 连接 记录 反映 了 某 一 时 刻 从 源 IP 地 址 到 目的 
IP 地 址 若干 个 数据 包 的 传输 情况 。 整 个 数据 集 分 为 训练 数据 集 和 测试 数据 集 两 部 分 。 
训练 数据 集 用 于 提取 数据 特征 ,生成 数据 挖掘 模型 ;测试 数据 集 用 于 验证 模型 的 效率 与 
正确 性 。 

KDD Cup 1999 数据 集 对 每 一 条 连接 记录 都 进行 了 分 类 (label)。 所 有 记录 分 为 正常 
(normal) 与 攻击 (attack) 两 大 类 ,其 中 攻击 行为 又 可 进一步 分 为 以 下 4 种 类 型 : 

(D DOS: 拒绝 服务 攻击 ,如 SYN 洪 泛 攻 击 。 

(2) R2L: 来 自 于 远程 主机 的 非法 入 侵 , 如 猜测 密码 。 

(3) U2R: 非法 获得 本 地 主机 的 超级 用 户 权限 ,如 各 种 “缓冲 区 溢出 ”攻击 。 


242 网 络 安全 高 级 软件 编程 技术 


(4) Probing: 监视 与 探测 ,如 端口 扫描 。 
除 类 别 (labeD 以 外 ,KDD Cup 1999 数据 集中 的 每 一 条 连接 记录 还 包含 41 项 属性 。 本 
章 共用 到 其 中 的 18 项 属性 (如 表 10-1 所 示 )。 其 中 ,前 3 个 属性 为 符号 类 型 ,其 他 属性 为 连 


表 10-1 KDD Cup 1999 数据 记录 的 18 项 属性 

名 K 类 m 说 y 
protocol type symbolic 协议 类 型 
Service symbolic 服务 类 型 
Flag symbolic 状态 标志 
src_bytes continuous 源 到 目的 字 节 数 
dst. bytes continuous 目的 到 源 字 节 数 
num_failed_logins continuous 登录 失败 次 数 
num. root continuous root 用 户 权限 存 取 次 数 
Count continuous 两 秒 内 连接 相同 主机 的 数目 
srv_count continuous 两 秒 内 连接 相同 端口 的 数目 
serror_rate continuous “REJ” 错 误 的 连接 数 比 例 
same_srv_rate continuous 连接 到 相同 端口 数 的 比例 
diff_srv_rate continuous 连接 到 不 同 端口 数 的 比例 
dst_host_srv_count continuous 相同 目的 地 相同 端口 连接 数 
dst_host_same_srv_rat continuous 相同 目的 地 相同 端口 连接 数 比例 
dst_host_diff_srv_rate continuous 相同 目的 地 不 同 端口 连接 数 比例 
dst host same src port rate continuous 相同 目的 地 相同 源 端口 连接 比例 
dst_host_srv_diff_host_rate continuous 不 同 主机 连接 相同 端口 的 比例 
dst host srv serror rate continuous 连接 当前 主机 有 S0 错误 的 比例 


读者 可 以 登录 到 http: //archive. ics. uci. edu/ml/databases/kddcup99/kddcup99. html 
上 下 载 KDD Cup 1999 数据 集 。 需 要 注意 的 是 ,KDD Cup 1999 作为 一 个 完备 的 数据 集 , 包 
含 多 个 文件 。 本 章 编 程 将 使 用 文件 kddcup. data_10_percent. gz 5j corrected. gz 分 别 作为 
入 侵 检测 模型 的 训练 数据 集 与 测试 数据 集 。 


10.2.2 K-Means 算法 


1. 聚 类 方法 简介 
根据 具体 应 用 的 不 同 , 聚 类 算法 可 分 为 以 下 5 类 : 
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CD 划分 方法 

(2) 层次 方法 

(3) 基于 密度 的 方法 

(4) 基于 网 格 的 方法 

(5) 基于 模型 的 方法 

K-Means 算法 是 一 种 基于 划分 方法 的 聚 类 分 析 方 法 。 所 谓 划分 方法 是 指 : 在 一 个 由 个 
对 象 或 元 组 组 成 的 数据 库 中 构建 数据 的 & 个 划分 (k 二 nn) ,每 个 划分 表示 一 个 聚 类 。 划 分 方法 
将 数据 划分 为 & 个 聚 类 ,并 且 同 时 要 求 满足 以 下 两 个 要 求 : 

CD 每 个 聚 类 至 少 包含 一 个 对 象 。 

(2) 每 个 对 象 必须 属于 且 只 属于 一 个 聚 类 。 

一 般 来 说 ,判断 划分 结果 优 劣 的 基本 原则 是 : 同一 个 聚 类 中 的 对 象 之 间 尽 可 能 “接近 ”， 
不 同 聚 类 中 的 对 象 之 间 尽 可 能 “远离 "。 通 常 , 聚 类 算法 会 选择 一 个 划分 标准 ( 称 为 相似 度 函 
数 ) 来 判定 对 象 之 间 的 相似 度 , 比 如 距离 等 。 


2. 聚 类 分 析 中 的 相似 度 计 算 方 法 


聚 类 分 析 中 的 数据 类 型 包括 数值 属性 、 二 值 属性 、 符 号 属性 、 顺 序 属性 和 比例 属性 。 因 
为 K-Means 算法 只 适用 于 聚 类 均值 有 意义 的 情况 ,所 以 本 章 只 介绍 数值 属性 的 相似 度 计算 
方法 。 数 值 属性 所 描述 对 象 之 间 的 相似 度 可 以 通过 计算 两 个 数据 对 象 之 间 的 距离 来 确定 ， 
如 欧 氏 距离 、Manhattan 距离 和 Minkowski 距离 等 。 


(1) 欧 氏 距离 
最 常用 的 距离 计算 公式 就 是 欧 氏 距离 ,定义 如 下 : 
dlisj) = V(| za—za l* | xa — xg |+ +l zy — xj |) 


其 中 对 象 i= (za exo memo XÓ jm Gra smi teme 

(2) Manhattan 距离 

另 一 个 常用 的 距离 计算 方法 就 是 计算 Manhattan 距离 ,公式 定义 如 下 : 

d(i,j) =| xa — za | 十 | ze 一 ze | 十 … 十 | zə — zj | 
(3) Minkowski 距离 
Minkowski 距离 是 欧式 距离 和 Manhattan 距离 的 一 个 推广 ,公式 定义 如 下 : 
dlisj) = (| ta — zn |° +| xa — xj |° + == ty — x, 1" 

其 中 q 为 一 个 正 整 数 ; 当 qd=1 时 , 它 代 表 Manhattan 距离 计算 公式 ; 当 g==2 时 , 它 代表 
欧 氏 距离 计算 公式 。 

若 每 个 变量 被 赋予 一 个 权 值 w, 表 示 其 所 代表 属性 的 重要 性 , 则 带 权 值 的 欧 氏 距离 计算 
公式 如 下 : 

dG,j) = Vm | za — zn l* Fw | xa — zp |? + >= +o, | xo — zy |) 


IH FÉ. Manhattan 距离 和 Minkowski 距离 也 可 以 引入 权 值 进行 计算 。 


3. K-Means 算法 设计 


(1) K-Means 算法 的 基本 思想 
K-Means 算法 首先 随机 选取 k 个 对 象 作 为 初始 聚 类 的 中 心 : 然 后 计算 各 个 数据 对 象 到 
每 个 聚 类 中 心 的 距离 ,把 数据 对 象 划分 到 离 它 最 近 的 聚 类 中 心 所 在 的 类 中 ;对 调整 后 的 新 类 
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重新 计算 聚 类 中 心 ,如 果 相 邻 两 次 计算 的 聚 类 中 心 没 有 任何 变化 , 则 说 明 数 据 对 象 的 划分 结 
束 。 本 算法 的 特点 是 在 每 次 迁 代 计算 中 都 要 考察 各 个 对 象 的 分 类 是 否 正 确 , 如 果 不 正 确 , 就 
需要 重新 进行 分 类 。 在 全 部 数据 调整 完毕 后 ,再 重新 计算 聚 类 中 心 , 进 入 下 一 次 迭代 。 如 果 
在 一 次 迭代 后 所 有 的 数据 对 象 都 被 正确 归 类 , 则 聚 类 中 心 将 不 会 改变 。 这 也 标志 着 算法 已 
经 收敛 ,可 以 终止 聚 类 过 程 。 

(2) K-Means 算法 流程 

K-Means 算法 的 流程 用 数学 语言 描述 如 下 : 

D 给 定 大 小 为 n 的 数据 集 , 令 聚 类 次 数 I=1, 选 取 k 个 数据 对 象 作为 初始 聚 类 的 中 心 
Z (D ,j=1,2,3--- k. k PRH Cluter o Hep j— 1.2.3. f. 

O 计算 每 个 数据 对 象 与 各 聚 类 中 心 的 距离 Dle Z; OD 4i 1.2.37 .j 1.2.3.7. 
,如果 满足 DG; Z, D) mint DG. Z; ID) .j —1.2,3. 4) ,那么 x;€ Cluter(m)。 

@ 按照 下 式 重新 计算 每 个 聚 类 的 聚 类 中 心 。 其 中 为 Cluter( 站 中 数据 对 象 的 数目 ， 
af? 表示 Cluter(7) 中 第 i 个 对 象 的 值 。 


ZI+D = 159, G 12,4 
@ # Z (I+1)ZZ, (ID , 则 TI=TI1, 返 回 第 四 步 ; 否 则 ,算法 结束 。 
10.2.3 K-Means 算法 的 缺点 与 扩展 


1. K-Means 算法 的 缺点 


虽然 K-Means 算法 复杂 度 低 ,易于 实现 ,但 是 在 处 理 大 规模 数据 时 , 聚 类 效果 往往 不 理 
想 。 尤 其 是 在 对 初始 聚 类 中 心 数目 进行 设置 时 ,选取 不 同 的 上 值 , 聚 类 结果 也 大 不 相同 。 
KDD Cup 1999 数据 集 除 了 包含 大 量 的 正常 数据 外 ,还 包含 多 种 攻击 数据 。 虽 然 这 些 攻击 
数据 可 以 划分 为 4 大 类 ,但 是 在 使 用 K-Means 算法 进行 聚 类 时 ,仅仅 将 初始 聚 类 中 心 数目 
设置 成 5( 包 括 正 党 数据 类 型 的 情况 ) .并 不 能 够 获得 最 佳 的 聚 类 效果 。 因 为 在 KDD Cup 
1999 数据 集中 ,正常 数据 和 攻击 数据 是 多 种 多 样 的 。 以 DOS 攻击 为 例 , 它 包含 了 smurf, 
neptune, back, teardrop, pod 以 及 land 共 6 种 攻击 方式 。 不 同 种 类 的 攻击 有 着 不 同 的 数值 
特性 ,即使 属于 同一 类 攻击 方式 ,在 相似 度 方 面 也 存在 很 大 差异 。 有 些 攻击 数据 在 相似 度 上 
与 正常 数据 十 分 接近 , 却 与 同类 型 的 攻击 数据 相去 甚 远 。 因 此 ,在 使 用 K-Means 算法 对 
KDD Cup 1999 数据 集 进 行 聚 类 分 析 时 ,无论 & 值 如 何 选取 ,仅仅 对 数据 集 进 行 一 次 聚 类 是 
远 远 不 够 的 。 


2. K-Means 算法 的 扩展 


为 了 获得 更 加 精确 的 聚 类 结果 ,需要 利用 K-Means 算法 对 KDD Cup 1999 数据 集 进行 
多 次 聚 类 。 

对 一 次 聚 类 而 言 , 它 的 结果 包含 了 多 个 划分 ,每 一 个 划分 表示 一 个 子 类 (SubCluster) 。 
每 一 个 子 类 中 可 能 只 包含 一 种 类 别 的 数据 ,也 可 能 包含 多 种 类 别 的 数据 。 对 于 前 一 种 情况 
而 言 ,说 明 该 子 类 已 经 从 其 他 数据 中 划分 出 来 ,代表 了 唯一 的 一 种 类 别 ; 而 对 于 后 一 种 情况 
而 言 , 子 类 中 包含 干扰 数据 ,不 能 用 一 种 类 别 来 对 该 子 类 进行 标记 。 在 一 般 情况 下 ,一 次 聚 
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类 很 难 划分 出 若干 个 完全 干净 ( 即 不 含 任何 干扰 数据 ) 的 子 类 。 子 类 中 往往 不 只 含有 一 种 类 
别 的 数据 。 因 此 判断 一 个 子 类 是 否 可 以 代表 一 种 类 别 , 是 否 需要 再 进行 一 次 聚 类 ,需要 引入 
聚 类 精度 的 概念 。 

聚 类 精度 (Cluster Precision) 表 示 一 个 子 类 中 干扰 数据 占 主 类 别 数据 的 比例 。 它 的 计 
算 过 程 分 为 以 下 5 个 步骤 : 

D 统计 子 类 中 不 同类 别 (Label) 数 据 的 数目 ,用 LabelNum[1]、LabelNum[2]… 表 示 。 

(2) 在 所 有 类 别 中 找 出 数据 数目 最 大 的 一 项 ,将 该 值 记 为 MaxLabelNum, 并 将 对 应 的 
类 别 设 置 为 本 子 类 的 主 类 别 (MasterLabel) 。 

(3) 统计 所 有 非 主 类 别 的 数据 的 数目 , 记 为 OtherLabelNum。 

(4) 计算 子 类 的 聚 类 精度 Cluster Precition— OtherLabelNum/MaxLabelNum., 

(5) 判断 聚 类 精度 是 否 符 合 要 求 ( 即 是 否 低 于 某 一 精度 标准 ,比如 0. D , 若 不 符合 要 求 ， 
WEH K-Means 算法 对 该 子 类 继续 进行 聚 类 ;和 否则 ,用 主 类 别 标记 该 子 类 。 

图 10-1 形象 地 描述 了 利用 K-Means 算法 进行 多 次 聚 类 的 过 程 。 根 节点 表示 训练 数据 
集 。 通 过 K-Means 算法 对 其 进行 一 次 聚 类 后 ,划分 出 5 个 子 类 ,Cluster0、…、Cluster4。 通 
过 计算 聚 类 精度 ,得 出 Clusterl ,Cluster2 和 Cluster4 符合 精度 要 求 ,不 再 进行 任何 操作 ;而 
Cluster0 和 Cluster3 不 符合 要 求 ,需要 采用 K-Means 算法 继续 进行 聚 类 。 通 过 重复 上 述 操 
NE ,不 符合 聚 类 精度 要 求 的 子 类 不 断 地 被 进一步 划分 ,生成 了 一 棵 聚 类 树 (Cluster Tree). 
树 中 的 每 一 个 叶子 节点 都 代表 一 个 符合 聚 类 精度 要 求 的 子 类 。 聚 类 树 的 深度 则 间接 反映 了 
采用 K-Means 算法 进行 聚 类 的 次 数 。 


r Cluster0.0 
六 一 Cluster0 一 一 Cluster0.1 — | & Cluster0.2.0 Cluster0.2.2.0 
——e Cluster0.2 一 -一 Cluster0.2.1 Cluster0.2.2.1 
广 一 Clusterl 
上 一 Cluster0.2.2 Cluster0.2.2.2 
Training 一 一 Cluster0.2.3 Cluster0.2.2.3 


Data 一 全 Cluster2 


Cluster0.2.2.4.0 
Cseo224 | 
m= Cluster3.0.0 Cluster0.2.2.4.1 
六 一 Cluster3.0 — 


—e- Cluster3.0.1 
p Cluster3 一 -一 Cluster3.1 


Cluster3.3.0.0 
上 = Cluster3.2 [= Cluster3.3.0 "L 
Cluster3.3.0.1 


æ Cluster3.3 æ Cluster3.3.1 


—e- Cluster3.3.2 


— Cluster 


图 10-1 聚 类 树 示意 图 


此 外 ,采用 K-Means 算法 进行 多 次 聚 类 是 一 个 自动 过 程 。 对 于 每 次 聚 类 而 言 , 初 始 聚 
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类 中 心 数目 的 设 定 也 应 该 是 自动 的 ,不 需要 用 户 进行 手动 输入 。 因 此 ,本 章 规定 在 对 训练 
数据 集 进 行 首次 K-Means 聚 类 时 ,将 & 值 设置 为 5。 这 样 既 包含 了 正常 类 别 , 也 包含 了 4 种 
攻击 类 别 。 在 对 子 类 进行 K-Means 聚 类 时 ,k 值 设 为 该 子 类 中 所 包含 的 不 同类 别 的 数目 。 
采用 这 种 取 值 方案 ,是 希望 在 下 一 次 聚 类 后 将 子 类 划分 为 不 同类 别 的 ECA 短 5) 个 聚 类 。 


10.3 实例 编程 练习 
10.3.1 编程 练习 要 求 


本 章 要 求 在 Linux 平台 上 编写 DataPretreat 与 Kmeans 两 个 应 用 程序 。DataPretreat 
程序 负责 KDD Cup 1999 数据 集 的 预 处 理工 作 。 在 完成 数据 集 预 处 理 之 后 ,Kmeans 程序 
使 用 K-Means 算法 对 训练 数据 集 进行 多 次 聚 类 分 析 ,生成 聚 类 树 ,建立 人 侵 检 测 模型 ,然后 
读 取 测试 数据 集 的 数据 ,预测 每 条 记录 的 类 别 。 下 面 分 别 给 出 编写 DataPretreat 与 Kmeans 
程序 的 具体 要 求 。 

1. DataPretreat 程序 

DataPretreat 是 Linux 命令 行程 序 ,命令 行 格式 如 下 。 

-/DataPreTreat 输入 文件 路 径 ] 

[输入 文件 路 径 ] 指 需要 进行 数据 预 处 理 的 文件 路 径 。 因 为 无 论 是 对 训练 数据 集 进行 聚 
类 ,还 是 对 测试 数据 集 进行 预测 ,都 需要 先 对 数据 记录 进行 预 处 理 , 所 以 DataPretreat 程序 
提供 了 输入 不 同 数 据 集 文件 的 接口 。 在 进行 简单 地 处 理 之 后 ,程序 将 这 些 数据 记录 保存 到 
输出 文件 中 。 输 出 文件 的 命名 规则 要 求 在 输入 文件 的 名 称 后 面 加 上 “_datatreat” 的 后 级 。 
如 下 所 示 , 以 corrected 作为 输入 文件 为 例 , DataPretreat 程序 的 执行 过 程 分 为 两 个 阶段 。 
首先 从 输入 文件 中 读 取 每 一 条 记录 ,并 进行 数据 处 理 ; 然 后 将 处 理 后 的 记录 写 入 到 输出 文件 
中 。 因 为 数据 文件 比较 大 ,所 以 无 论 是 在 读 文件 还 是 在 写 文件 时 ,都 需要 及 时 地 输出 日 志 信 
息 。 从 上 面 的 执行 过 程 中 ,可 以 看 出 corrected 文件 中 总 共 包 含 了 311029 条 记录 。 所 有 经 
过 预 处 理 的 数据 记录 都 被 写 入 输出 文件 corrected_datatreat 中 (如 下 所 示 )。 


[root@ localhost DataPretreat]#./DataPreTreat corrected 


All Records have read!Total 311029 records! 
Start writing records into corrected datatreat... 
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2. Kmeans 程序 


Kmeans 为 Linux 命令 行程 序 ,命令 行 格式 如 下 : 
-/Kreans 


5j DataPretreat 程序 相 比 ,Kmeans 程序 不 需要 用 户 输入 任何 参数 。 程 序 默认 将 
kddcup. data_10_percent_datatreat 与 corrected_datatreat 分 别 作为 训练 数据 集 与 测试 数据 
集 文件 。 这 两 个 输入 文件 都 是 由 对 应 文件 经 过 DataPretreat 程序 处 理 后 生成 的 。Log. txt 
与 Result. txt 是 Kmeans 程序 的 两 个 输出 文件 。Log. txt 记录 了 程序 在 运行 过 程 中 的 一 些 
日 志 信息 ,比如 聚 类 树 的 生成 过 程 ,每 次 使 用 K-Means 算法 进行 聚 类 的 结果 等 等 。Result. 
txt 文件 用 于 保存 对 测试 数据 集 的 预测 结果 。 如 下 所 示 ,Result. txt 文件 的 内 容 包 括 3 个 部 
分 。Classification Result 部 分 记录 了 所 有 测试 数据 的 预测 结果 。 每 一 行 记 录 包 括 测 试 数据 
的 真实 类 别 CTrue Label) .预测 类 别 (Pre Label) 以 及 在 聚 类 树 中 所 匹配 的 聚 类 路 径 (Cluster 
Path), Total Result 部 分 对 所 有 测试 数据 进行 统计 ,包括 参加 测试 的 数据 总 数 (Total Test 
Records) ,预测 正确 的 数据 数目 (Right Label Records) 以 及 预测 正确 率 (Right Rate), 
Confusion Matrix 部 分 显示 了 预测 结果 的 混淆 和 矩阵。 在 混淆 矩阵 中 ,0 一 4 分 别 代表 
normal、dos、probe、u2r 和 r21 5 种 不 同 的 类 别 。 和 矩阵 中 的 5 列表 示 预 测 的 分 类 情况 ,5 行 表 
示 真 实 的 类 别 。 例 如 ,在 第 1 行 第 2 列 的 数目 是 19, 它 表示 真实 类 别 是 dos 而 预测 结果 是 
probe 的 测试 数据 有 19 个 。 


====================Classification Result ==================== 
True Label= nomal Pre Label- normal Cluster Path= 0.4.4.4.4.0 

True Label= normal Pre Label- normal Cluster Path= 0.4.4.4.4.0 
=======================Total Result ======================== 
Total Test Records= 311029 Right Label Records- 299950 Right Rate 0.96438 
======================Confusion Matrix ====================== 
TP 0 1 2 3 4 

0 74775 3596 «5 0 46 

i 143 225336 19 0 0 

2 218 120 239 0 0 

3 E! 4 0 0 4 

4 542 — 535 16 0 0 


10.3.2 编程 训练 设计 与 分 析 


根据 编程 训练 的 基本 要 求 ,需要 分 别 编 写 DataPretreat 与 Kmeans 这 两 个 程序 。 
DataPretreat 程序 只 负责 完成 简单 的 数据 预 处 理工 作 , 而 Kmeans 程序 不 但 需要 实现 核心 
的 K-Means 算法 ,还 需要 提供 聚 类 树 的 相关 操作 ,实现 K-Means 算法 的 扩展 功能 。 


1. DataPretreat 程序 的 设计 与 实现 
DataPretreat 是 提供 数据 预 处 理 功能 的 辅助 程序 。 它 包括 DataPretreat. h 与 
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DataPretreat. cpp 等 两 个 文件 。 如 下 所 示 , 头 文件 DataPretreat. h 中 定义 了 一 些 基 本 的 数 


据 结构 和 功能 函数 。 
#define MAX BUF SIZE 512 /定义 字符 缓冲 区 最 大 值 
typedef unsigned char BYTE; /定义 BE 类 型 


[C I I I e I Y e i e ex Ae Ja PRÉC intToString € x ee ese 
/将 一 个 Int 类 型 的 数 转换 成 一 个 string 
A9% H E HE AE E FE FE DE FE IE IE FE IE IE E IE DE E JE IE E JE IE FE IE IE FE JE IE FE IE AE JE IE E JE JE IE JE IE IE JE IE IE IE JE IE JE IE E FE IE E IE AEE FE 
string intToString(int i) 
t 

stringstream s; 

s«i 

retum s.str(); 


J [0 E PE 0 oo dL BB AO E BO £i HO DRE. XL OOOOOOOOOOOOOOOOGOGOGGE 


struct strMyFecord 

t 
BYTE iProtocolType; //00 协议 类 型 : 符号 变量 ,3 类 
BYIE iServioe; //03 服务 类 型 : 符号 变量 ,66 类 
BYTE iStatusFlag; //04 状态 标志 : 符号 变量 ,11 类 
int iSrcBytes; //05 源 到 目的 字 节 数 : 连续 变量 
int iDestBytes; //06 目的 到 源 字 节 数 : 连续 变量 
int iFailedLogins; //1 登录 失败 次 数 : 连续 变量 
int iNamofRoot; //A&ccot 用户 权限 存 取 次 数 : 连续 变量 
int iCount; //232 秒 内 连接 相同 主机 数目 连续 变量 
int iSrvoount; //242 秒 内 连接 相同 端口 数目 : 连续 变量 
BYTE iRerrorRatey //21 "FED" 错 误 的 连接 数 比例 : 连续 变量 :0~ 100 
BYTE iSameSrvate; //23 连 接 到 相同 端口 数 比 例 : 连续 变量 :0~ 100 
BYTE iDiffSrvPate; //30 连接 到 不 同 端口 数 比 例 : 连续 变量 :0~ 100 


int ipstHostsrvCount: /33 相同 目的 地 相同 端口 连接 数 : ”连续 变量 : 
//34 相 同 目的 地 相同 端口 连接 数 比例 :连续 变量 : O~ 100 

BYTE iDstHostSameSrvFate; 

//35 相同 目的 地 不 同 端口 连接 数 比例 :连续 变量 :0~ 100 

BYTE iDstHostDiffSrvRate; 

//36 相 同 目的 地 相同 源 端 口 连接 比例 :连续 变量 :0~ 100 

BYTE iDstHostSameSrcFortRate; 

//37 不 同 主机 连接 相同 端口 比例 : 连续 变量 :0~ 100 

BYTE iDstHostSrvDiffHostRate; 

//39 连 接 当 前 主机 有 s0 错 误 的 比例 : 连续 变量 : 0~ 100 

BYTE iDstHostSrvSerrorFate; 

BYTE ilabel; //42 类 型 标签 : 符号 变量 5 类 


第 10 章 


结构 体 strMyRecord 用 于 保存 从 输入 文件 中 读 取 的 数据 
记录 。 在 KDD Cup 1999 数据 集中 , 除 类 别 标签 (label) 以 外， 
每 一 条 记录 由 41 项 不 同 的 属性 值 组 成 。 根 据 K-Means 算法 的 
要 求 , 结 构 体 strMyRecord 没有 包含 所 有 属性 ,而 是 选取 了 其 
中 的 18 项 属性 。 这 些 属性 分 为 符号 变量 与 连续 变量 两 种 类 
型 。 符 号 变量 包括 协议 类 型 .服务 类 型 .状态 标志 以 及 最 后 的 
类 别 标签 。 因 为 K-Means 算法 只 适用 于 均值 有 意义 的 情况 ,所 
以 需要 将 这 些 符号 变量 用 数值 表示 。 例 如 ,对 协议 类 型 属性 而 
言 ,就 可 以 用 数值 0、1、2 分 别 代替 icmp \tcp 和 udp 3 种 不 同 的 
协议 。 

main 函数 是 DataPretreat 程序 的 核心 部 分 。 它 的 流程 如 
图 10-2 所 示 。 

a) 首先 打开 输入 文件 和 输出 文件 。 输 入 文件 名 
InputFileName 可 以 通过 main 函数 的 参数 argv[1] 获 得 。 输 出 
文件 名 则 在 输入 文件 名 后 面 拼 上 后 级 字符 串 *_datatreat” 即 可 。 

(2) 使 用 STL List 模板 创建 记录 链表 RecordList。 链 表 
中 的 每 一 个 节点 都 是 一 个 strMyRecord 类 型 的 指针 。 

(3) 调用 fgets 函数 读 取 输 入 文件 中 的 每 一 条 记录 。 

(4) 对 每 一 条 记录 进行 数据 预 处 理 。 预 处 理工 作 主 要 包括 
以 下 3 个 方面 : 

CD 删除 不 需要 的 属性 变量 ; 

@ 将 符号 类 型 变量 数值 化 ; 

@ 将 用 百分比 表示 的 变量 转换 成 0 一 100 的 正 整 数 。 


(5) 调用 STL List 模板 的 push back 函数 ,将 处 理 完毕 的 记录 插入 记录 链表 


RecordList 的 末端 。 


(6) 遍历 记录 链表 RecordList, 将 每 条 处 理 过 的 记录 都 写 人 输出 文件 中 。 每 条 记录 的 


不 同属 性 值 之 间 用 逗号 “,” 隔 开 。 
2. Kmeans 程序 总 体 架构 


入 侵 检 测 模 型 的 设计 与 实现 


开始 


打开 输入 文件 与 输出 文件 


1 


创建 记录 链表 RecordList 


i 


读 取 输 入 文件 中 的 记录 


i 


对 数据 记录 进行 预 处 理 


i 


将 处 理 后 的 数据 插入 
链表 RecordList 


i 


遍历 链表 RecordList， 将 每 
个 节点 的 记录 写 入 输出 文件 


图 10-2 DataPretreat 程序 
main 函数 流程 图 


作为 编程 训练 的 核心 部 分 ,Kmeans 程序 负责 完成 两 方面 的 工作 : 一 方面 使 用 K-Means 
算法 对 训练 数据 集 kddcup. data_10_percent_datatreat 进行 聚 类 分 析 , 生 成 聚 类 树 ,建立 人 
侵 检测 模型 ; 另 一 方面 利用 入 侵 检 测 模型 对 测试 数据 集 corrected_datatreat 的 数据 记录 进 
行 类 别 预测 。 如 表 10-2 所 示 ,Kmeans 程序 包含 5 个 文件 和 3 个 类 结构 。 下 面 将 讨论 各 个 
类 的 设计 与 实现 方法 。 


3. CKMeans 类 的 设计 与 实现 


CKMeans 类 不 仅 实现 了 K-Means 算法 的 全 部 计算 过 程 .而 且 提 供 了 方便 的 函数 接口 。 
一 个 CKMeans 类 对 象 表示 聚 类 树 的 一 个 节点 。 它 对 输入 数据 进行 聚 类 分 析 , 将 不 同类 别 
的 数据 记录 插入 到 不 同 的 子 类 链表 中 。 如 果 聚 类 结果 中 的 某 个 子 类 不 满足 聚 类 精度 的 要 
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表 10-2 Kmeans 程序 组 成 文件 列表 
文 件 名 f #“ 
Common. h 包含 一 些 共 用 的 头 文件 、 宏 定义 。 重 新 定义 了 结构 体 strMyRecord 


Kmeans. h 


Kmeans. cpp 


定义 CKMeans 类 。 该 类 实现 了 K-Means 算法 ,提供 递归 函数 RunK Means 作为 创 
建 聚 类 树 的 方法 ,提供 函数 FindClosestCluster 作为 预测 数据 类 别 的 方法 


ClusterTree. h 


定义 ClusterNode 类 和 ClusterTree 2€, ClusterNode 类 描述 了 聚 类 树 的 节点 信息 ， 


ClusterTree. cpp 


每 一 个 节点 代表 一 个 聚 类 。ClusterTree 类 提供 了 聚 类 树 的 操作 接口 ,比如 插入 操 
作 , 匹 配 最 近 的 节点 等 


求 , 那 么 就 创建 一 个 新 的 CKMeans 类 对 象 对 该 子 类 继续 进行 聚 类 。 总 之 , 聚 类 树 的 根 节点 
(Root) 将 整个 训练 数据 集 作 为 输入 ,利用 K-Means 算法 进行 一 次 聚 类 后 ,生成 若干 个 子 类 
作为 根 节点 的 子 节点 。 不 符合 聚 类 精度 的 子 类 会 继续 使 用 K-Means 算法 对 自身 链表 中 的 
数据 进行 聚 类 分 析 。 这 样 不 断 地 重复 下 去 ,直到 聚 类 树 中 所 有 叶子 节点 都 符合 聚 类 精度 的 
要 求 为 止 。CKMeans 类 的 定义 如 下 : 


class CMeans 


t 
public: 


// 物 造 函数 1 

CKMeans (ClusterTree * pTree, int KmeansID, int Level, int NumDimensions) 
// 物 造 函 数 2 

CKVeans (ClusterNode * pSelf,ClusterTree * pTree, int KneansID, int Level, 


int NumDimensions,list« strMyRecord*» * pDataList) 


// 读 取经 过 数据 预 处 理 的 记录 

bool ReadTrainingRecords () ; 

/tk means 算 法 的 第 一 步 :从 n 个 数据 对 象 任意 选择 k 个 对 象 作 为 初始 聚 类 中 心 
void InitClusters (unsigned int NmClusters); 

/tk means 算 法 的 第 二 步 :把 每 个 对 象 分 配给 与 之 距离 最 近 的 聚 类 
void DistributeSamples () ; 

//K- neans SK t 08 98 =b :重新 计算 每 个 聚 类 的 中 心 
bool CalcNewClustCenters () ; 

// 计 算 指定 数据 对 象 与 聚 类 中 心 的 欧 几 里 得 距离 
float CalcEucNom(strMyFecord*pRecord, int id); 

// 找 到 离 给 定数 据 对 象 最 近 的 一 个 聚 类 

int FindClosestCluster (strMyFecord *pRecord) ; 

// 打 印 聚 类 中 心 

void Printclusters () ; 

/ht means 算 法 的 总 体 过 程 

void RunkMeans (int Kvalue); 

// 在 Reans 算 法 运行 之 后 ,查询 所 有 聚 类 的 标签 数 
void GetClusterslabel () ; 

// 检 查 聚 类 后 一 类 中 的 分 类 是 否 合理 

bool IsClusterCK (int i); 

// 获 得 聚 类 i 的 链表 
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list < strMyRecordx > * GetClusterlist (int i); 
// 打 印 本 Geans 对 象 中 子 类 189 label 

void PrintClusterlabel (int i); 

// 获 得 本 对 象 中 子 类 i 包含 不 同 的 Label 个 数 
int GetDiffrabelofcluster (int i); 
AES HR UH SERE 

bool IsStopRecursicn (int. i); 

// 创 建 聚 类 树 节点 

void CreatClusterTresNode (ClusterNode * pParent); 


private: 


//F1 8 AD S 5 2 W 09 92 2 rh 5e 4H [ed 
bool IsSameAsCluster (int i,strMyRecord * pRecord); 
/为 子 类 i BO P CUL 

void EvaluateCluster (int i,strMyRecord * pRecord) ; 


private: 
EIIE* plInFile; // 输 入 文件 的 指针 
list« strMyRecord* >m ReoordsList; /数据 记录 链表 
unsigned int m iNaClusters; // 聚 类 的 类 别 数 即 K 值 ) 
int m iNurRecords; /数据 记录 的 行 数 
int m_iNumDimensionsy /数据 记录 的 维 数 
Cluster m Cluster[MAXCIUSTER] ; // 子 类 数组 
int m Clusterlevel; // 聚 类 对 象 所 处 的 层次 
int m KmeansID; /ceans 对 象 的 10-7 
ClusterTree * pClusterTree; // 聚 类 树 的 指针 
// 本 对 象 孩子 节点 的 指针 
ClusterNode * pClusterNode [MAXLAEEL] ; 


k 


// 与 本 Ckineans 对 象 相关 的 聚 类 节点 的 指针 
ClusterNode * FSelfclusterNode; 


(1) 私有 成 员 变 量 

文件 指针 pInFile 用 于 读 取 训练 数据 集 文件 ,并 将 数据 记录 保存 到 链表 m_RecordsList 
中 。m_iNumClusters 表示 聚 类 分 析 中 的 类 别 数 , 即 K-Means 算法 中 需要 预先 设 定 的 K f 
大 小 。m_iNumRecords 和 m iNumDimensions 分 别 表示 数据 记录 的 行 数 与 维 数 ( 即 属性 的 
数目 )。 子 类 数组 m_Cluster 用 于 保存 聚 类 结果 中 每 一 个 子 类 的 信息 ,比如 中 心 点 、 成 员 链 
表 以 及 成 员 数 目 。m_ClusterLevel 表示 当前 CKMeans 对 象 在 聚 类 树 中 所 处 的 层次 。 
m_KmeansID 表示 当前 CKMeans 对 象 的 全 局 唯一 标识 符 。pClusterTree 是 指向 聚 类 树 的 
指针 ,而 指针 pSelfClusterNode 则 指向 当前 CKMeans 对 象 在 聚 类 树 中 对 应 的 节点 。 指 针 
数组 pClusterNode 用 于 访问 CKMeans 对 象 的 若干 子 类 在 聚 类 树 中 所 对 应 的 节点 。 

(2) 构造 函数 

CKMeans 类 有 两 个 构造 函数 。 第 一 个 用 于 生成 首 个 CKMeans 对 象 , 作 为 聚 类 树 的 根 
节点 。 另 一 个 用 于 生成 聚 类 树 中 的 子 节点 。 如 表 10-3 所 示 ,因为 根 节 点 与 子 节点 的 初始 化 
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过 程 不 同 ,所 以 在 参数 设置 上 也 略 有 差异 。 根 节点 没有 父 节点 。 它 的 输入 数据 来 源 于 训练 
数据 集 。 普 通 的 子 节点 需要 维护 自身 与 父 节点 的 继承 关系 。 它 的 输入 数据 是 在 父 节点 的 聚 
类 结果 中 不 符合 聚 类 精度 的 子 类 。 

表 10-3 CKMeans 类 构造 函数 参数 对 比 


参 数 说 明 构造 函数 1 构造 函数 2 
pSelf 指向 聚 类 树 中 与 自身 对 象 对 应 的 节点 无 有 
pTree 指向 聚 类 树 有 有 
KmeansID 当前 CKMeans 对 象 的 全 局 唯一 标识 符 有 有 
Level 当前 CKMeans 对 象 在 聚 类 树 中 的 层次 有 有 
NumDimensions 数据 的 维 数 有 有 
pDataList 输入 数据 链表 无 有 


(3) 函数 ReadTrainingRecords 

函数 ReadTrainingRecords 负责 读 取 kddcup. data_10_percent_datatreat 文件 中 的 数 
据 , 将 每 一 条 记录 的 数据 都 保存 在 一 个 strMyRecord 结构 体 中 ,并 用 链表 m_RecordsList 将 
所 有 的 结构 体 组 织 起 来 。 只 有 聚 类 树 的 根 节点 才 会 调用 该 函数 ,而 其 他 节点 不 需要 从 训练 
数据 集中 读 取 数据 。 

(4) 函数 InitClusters 

函数 InitClusters 完成 K-Means 算法 的 第 1 步 : 从 nn 个 数据 对 象 中 任意 选择 个 对 象 
作为 初始 聚 类 中 心 。 函 数 代码 如 下 : 

void CKMeans: :InitClusters (unsigned int NurClusters) 

f 


int i; 

stiMyRecord * gRecord; / hl By ic 32 038 £F 

list« strMyRecord* > ::iterator ReodListIter; // 记 录 链 表 的 迭代 器 

m iNurClusters=NuClusters; // 对 预测 的 聚 类 数 k 进 行 赋值 
ReodListIter-m RecordsList.begin () ; /将 List 和 迭代 器 指向 链表 头 部 


// 初 始 化 m_iNinclusters 个 类 的 中 心 点 
for(i-0;i«m iNnClusters; i++) 
{ 
rRecord- (* ReodListIter); 
/在 记录 链表 中 查找 出 一 个 与 之 前 的 聚 类 中 心 数值 不 同 的 记录 作为 中 心 
while (IsSameAsCluster (i,pPecord)) 
t 
ReodListltert +; 
pRecord- (* ReodListIter); 
H 
// 将 找到 的 记录 作为 一 个 新 的 聚 类 中 心 保 存 起 来 


) 
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// 将 记录 插入 该 类 的 成 员 链 表 

m Cluster[i].MenberList.push back (pRecord) ; 
// 将 该 聚 类 的 成 员 数 设置 为 1 

m Cluster[i].iNumMenbers- 1; 

// 将 当前 记录 的 数值 赋 给 第 T ROI po 
EvaluateCluster (i,pFecord) ; 


函数 首先 从 链表 m. RecordsList 的 头 部 开始 依次 读 取 每 一 条 记录 ,选择 聚 类 中 心 。 调 
用 函数 IsSameAsCluster 判断 当前 记录 是 否 与 之 前 选择 的 聚 类 中 心 相同 ,若是 , 则 放弃 当前 
记录 , 读 取 下 一 条 记录 ;否则 ,将 当前 记录 作为 一 个 新 的 聚 类 中 心 保存 起 来 。 不 断 重复 上 面 
的 操作 ,直到 个 聚 类 中 心 选择 完毕 为 止 。 

(5) 函数 DistributeSamples 

函数 DistributeSamples 完成 K-Means 算法 的 第 2 步 : 把 每 条 数据 记录 划分 到 与 之 距 
离 最 近 的 聚 类 中 。 具 体 流程 如 下 : 

CD 清空 所 有 聚 类 的 成 员 链 表 。 

© 迭代 器 RecdListIter 指向 链表 m_RecordsList 的 头 部 。 

© 从 m RecordsList 链表 中 读 取 一 条 记录 。 

CD 调用 函数 FindClosestCluster, 找 出 与 该 条 记录 最 近 的 聚 类 中 心 的 ID. 

C) 将 该 条 记录 插入 到 对 应 聚 类 中 心 的 成 员 链 表 中 。 

© 判断 记录 是 否 已 读 取 完 毕 。 若 是 , 则 退出 ;和 否则 ,迭代 器 RecdListlter 指向 下 一 条 记 
录 , 然 后 返回 第 @ 步 继续 执行 。 

在 第 @@ 步 中 ,函数 FindClosestCluster 调用 了 函数 CalcEucNorm 分 别 计算 出 当前 记录 
到 个 聚 类 中 心 的 距离 。 然 后 返回 距离 最 近 的 聚 类 ID. BR CalcEucNorm 的 代码 如 下 : 


float CKMeans: :CalcEucNorm (strMyRecord * pRecord, int id) 


t 


double fDist; 
fDist-0; 


fDistt-pow((pRecord- > fProtocol'Type- m Cluster [id] .Center [0]) ,2) ; 
fDistt-pow((pRecord- > fService-m Cluster [id] .Center [1]) ,2) ; 
fDistt-pow((pRecord- > fStatusFlag-m Cluster[id] .Center[2]) ,2) ; 
fDistt- pow((pRecord- > fSrcBytes- m Cluster [id] .Center[3]) ,2) ; 
fDistt-pow((pRecord- > fDestBytes- m Cluster [id] .Center [4]) ,2) ; 
fDistt-pow((pFecord- > fFailedLogins-m Cluster [id] Center [5] ,2) ; 
fDistt- pow((pRecord-» fNumfRoot-m Cluster [id] .Center [6]) 2) ; 
fDistt-pow((pRecord- > fOount- m Cluster [id] Center [7]),2); 
fDistt- pow((pRecord- > fSrvCount- m Cluster [id] Center [8]) ,2) ; 
fDistt-pow((pFecord- > fRerrorRate-m Cluster [id] .Center [9]) ,2) ; 
fDistt- pow((pRecord- > fSameSrvRate- m Cluster [id] Center [10]) ,2) ; 
fDist+ = pow((pFecord- > fDiffSrvRate-m Cluster [id] Center [11] ,2) ; 
fDist+ = pow((pFecord- > fDstHostSrvOount.-m Cluster [id] .Genter [12]) ,2) ; 
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fDistt— pow((pRecord- > fDstHostSameSrvPate- m Cluster [id] .Center[13]) ,2) ; 
fDistt— pow((pFecord- > f£DstHostDi ffSrvRate- m Cluster [id] .Center [14]) ,2) ; 
fDistt— pow((pRecord- > fDstHostSameSrcPortRate- m Cluster[id] Center [15]) ,2) ; 
fDistt- pow((pRecord- > fDstHostSrvDi ffHostRate- m Cluster[id] .Center[16]) ,2) ; 
fDistt— pow((pFecord- > fDstHostSrvSerrorRate- m Cluster [id] Center [17]),2) ; 


return float (fDist); 

$ 

函数 将 表 10-1 列 出 的 18 项 属性 作为 输入 ,按照 前 文 给 出 的 欧 氏 距离 的 计算 方法 计算 
出 当前 记录 与 指定 聚 类 中 心 之 间 的 距离 。 值 得 注意 的 是 ,函数 并 没有 完全 按照 前 文 进行 计 
算 。 因 为 欧 氏 距离 的 计算 结果 是 否 开 方 并 不 影响 数值 大 小 的 比较 ,所 以 在 函数 
CalcEucNorm 中 就 省 去 了 开 方 这 一 步骤 。 

(6) 函数 CaleNewClustCenters 

函数 CaleNewClustCenters 完成 K-Means 算法 的 第 3 步 : 重新 计算 每 个 聚 类 的 中 
心 。 函 数 使 用 循环 分 别 对 & 个 聚 类 中 心 重 新 进行 计算 。 其 中 每 个 聚 类 中 心 的 计算 流程 
WF: 

CD 将 临时 聚 类 中 心 TempCenter 的 每 一 个 属性 值 都 设置 为 0。 

© 遍历 当前 聚 类 中 心 的 成 员 链 表 ,将 每 一 条 记录 的 属性 值 都 加 在 TempCenter 对 应 的 
属性 上 。 将 TempCenter 中 的 每 一 个 属性 值 除 以 聚 类 成 员 数 ,计算 出 属性 的 平均 值 。 

@ 判断 每 个 平均 值 与 当前 聚 类 中 心 的 属性 值 是 否 不 同 。 只 要 有 一 个 不 同 , 将 新 计算 出 
的 平均 值 更 新 为 聚 类 中 心 ,返回 false; 否 则 , 聚 类 中 心 不 变 ,返回 true, 

CD 函数 RunKMeans 

函数 RunKMeans 将 前 面 介绍 的 3 个 函数 串联 起 来 ,实现 K-Means 算法 的 整个 过 程 。 
函数 RunKMeans 的 流程 如 图 10-3 所 示 : 

(D 首先 调用 函数 InitClusters, 为 本 次 聚 类 初始 化 聚 类 中 心 。 

© 判断 bool 变量 IsFinish 的 值 是 否 为 true。 若 是 , 则 结束 本 次 聚 类 . 跳 转 至 第 @ 步 ; 否 
则 继续 下 面 的 步骤 。 

© 调用 函数 DistributeSamples ,将 每 条 记录 分 配给 最 近 的 聚 类 中 心 。 

@ 调用 函数 CalcNewClustCenters ,重新 计算 聚 类 中 心 。 如 果 新 的 聚 类 中 心 与 之 前 的 
聚 类 中 心 相同 , 则 将 bool 变量 IsFinish 设 为 true, 

© 8 Hl PR 3 GetClustersLabel, 打 印 本 次 聚 类 的 结果 。 包 括 每 个 聚 类 的 聚 类 中 心 成员 
数目 以 及 组 成 情况 。 

© 判断 对 聚 类 结果 的 检查 是 否 结束 ? 利用 变量 i 遍历 所 有 的 聚 类 。 如 果 ;全 Kvalue， 
则 所 有 的 聚 类 检查 完毕 , 跳 至 第 四 步 ;否则 ,继续 下 面 的 步骤 。 

CD 调用 函数 IsClusterOK ,判断 第 ;个 聚 类 是 否 符合 聚 类 精度 的 要 求 ? 若 满足 要 求 , 跳 
至 上 一 步 ; 否 则 ,继续 下 面 的 步骤 。 

调用 函数 IsStopRecursion ,判断 是 否 需要 对 第 i 个 聚 类 继续 进行 聚 类 ? 若是 , 则 继 
续 下 面 的 步骤 ;否则 , 跳 至 第 @ 步 。 

© 创建 一 个 新 的 CKMeans 对 象 , 对 第 i 个 聚 类 的 成 员 继 续 进行 聚 类 。 然 后 跳 转 至 第 
(E. 
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调用 函数 Init Clusters , 
初始 化 聚 类 中 心 


判断 聚 类 是 否 结束 ? 
IN 
调用 函数 DistributeSamples , 
将 每 条 记录 分 配给 最 近 的 聚 类 中 心 
1 


调用 函数 CaleNewClustCenters , 
重新 计算 聚 类 中 心 
L— — 


= 


调用 函数 GetClustersLabel , 
打印 聚 类 结果 


判断 对 聚 类 结果 
的 检查 是 否 结束 ? 


TsClusterOK , 判断 聚 类 i 是 否 符 
合 聚 类 精度 要 求 2 


打印 相关 日 志 


IsStopRecursion ， 判 断 是 否 
停止 聚 类 过 程 ? 


创建 一 个 新 的 CKMeans xf $$ , 
对 聚 类 i 中 的 成 员 继续 进行 聚 类 


退出 
图 10-3 ”函数 RunKMeans 流程 图 
D 打印 相关 日 志 , 退 出 函数 。 
4. ClusterNode 类 与 ClusterTree 类 的 设计 与 实现 


(1) ClusterNode 类 实现 了 聚 类 树 中 聚 类 节点 的 相关 操作 ,为 实现 ClusterTree 类 提供 
了 底层 的 操作 接口 ClusterNode 类 的 声明 如 下 : 


class ClusterNode 
t 
public: 
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// 物 造 函 数 

ClusterNode () {+} 

// 计 算 该 条 记录 到 该 节点 中 心 的 距离 

float CalCenterDistance (strMyRecord * pRecord) ; 
/获得 孩子 i 的 指针 

ClusterNcde * GetchildNode (int i); 
/获得 本 节点 的 聚 类 标签 

int GetClusterNodelabel () ; 

// 递 归 函 数 ,在 以 该 节点 为 父亲 的 子 树 中 ,获得 与 数据 记录 距离 最 近 的 聚 类 节点 
ClusterNode * GetNearestCluster (strMyRecord * pReoord) ; 
// 递 归 函 数 ,打印 节点 信息 


void Print (); 
// 将 聚 类 树 输出 到 日 志文 件 中 
void Printlog(); 
public: 
float fOenter|[MAXDIMENSION] ; // 聚 类 节点 的 中 心 
string strPath; // 聚 类 节点 的 路 径 
ClusterNode * pParentNode; // 指 向 这 个 聚 类 节点 的 父 节 点 的 指针 
ClusterNode * // 指 向 这 个 聚 类 节点 的 孩子 节点 的 指针 
pChildNode [MAXLAEEL] ; 
float ClusterResult; // 聚 类 精度 
bool IsClustercK; // 聚 合 结果 是 否 符合 标准 
int Isleaf; // 节 点 类 型 ,是否 为 叶子 节点 ， 聚 类 是 否 正常 终止 
//0: 非 叶子 节点 
//1: 叶子 节点 且 聚 类 正常 结束 
//2: 叶子 节点 且 聚 类 非 正常 结束 
int iLabelNm[MAXIAPEL]; // 记 录 聚 类 中 各 种 标签 的 数目 


k 


(2) Cluster Tree 类 将 所 有 聚 类 节点 组 织 在 一 棵 聚 类 树 中 ,实现 了 插入 聚 类 节点 、 匹 配 
距离 最 近 节 点 等 操作 。ClusterTree 类 的 声明 如 下 : 


class ClusterTree 
t 
public: 
// 构 造 函 数 
ClusterTree () 
t 

pRocthiode- new Clusterode () ; 

ERootNode- > strPath- "0"; 
) 
// 插 入 节点 
void InsertNode (ClusterNode * pParent., ClusterNode * pode, int. i); 
// 找 到 与 给 定 记录 距离 最 近 的 聚 类 节点 
ClusterNode * FindNearestCluster (strMyRecord * record) ; 
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// 获 得 根 节点 

ClusterNode * GetRootNode () ; 
// 打 印 聚 类 树 

void Print () ; 
/将 聚 类 树 输出 到 日 志文 件 中 
void PrintIog() ; 


private: 

// 根 节点 指针 
ClusterNcde * FRootNode; 

N 

聚 类 树 的 生成 和 使 用 与 Kmeans 程序 的 整个 运行 过 程 紧 密 联系 在 一 起 。 利 用 K-Means 
算法 对 训练 数据 集 进行 多 次 聚 类 分 析 的 过 程 也 是 生成 聚 类 树 的 过 程 , 而 对 测试 数据 集中 的 
记录 进行 预测 的 过 程 其实 就 是 在 聚 类 树 中 为 测试 记录 寻找 最 匹配 的 聚 类 节点 的 过 程 。 下 面 
分 别 对 这 两 个 过 程 进行 简单 介绍 。 

G) 聚 类 树 的 生成 

聚 类 树 的 生成 过 程 是 Kmeans 程序 对 训练 数据 集 进行 多 次 聚 类 分 析 的 过 程 ,也 是 建立 
入 侵 检测 模型 的 过 程 。 它 的 主要 流程 如 下 : 

中 为 了 对 训练 数据 集 进 行 聚 类 分 析 , 需 要 在 Kmeans 程序 中 创建 一 个 CKMeans 对 象 。 
伴随 着 这 一 操作 , 聚 类 树 完 成 根 节 点 的 插入 工作 并 且 将 根 节 点 的 路 径 设置 为 "0"”。 这 些 工作 
都 是 在 ClusterTree 类 的 构造 函数 中 实现 的 。 

© CKMeans 对 象 调 用 RunKMeans 函数 对 训练 数据 集 进行 分 析 。 当 聚 类 完成 以 后 ,会 
调用 函数 CreatClusterTreeNode 为 结果 中 的 每 一 个 聚 类 创建 节点 ,并 将 它们 作为 自己 的 孩 
子 节点 插入 到 聚 类 树 中 。 例 如 ,在 对 训练 数据 集 进行 第 一 次 聚 类 后 ,生成 了 5 个 聚 类 。 则 就 
在 根 节点 下 插入 5 个 子 节点 ,并 将 这 5 个 子 节点 的 路 径 分 别 设 置 为 “0. 0”、“0. 17,0. 2”、 
"0 9" E gA 

© 调用 函数 IsClusterOK 进一步 判断 每 一 个 聚 类 是 否 符合 聚 类 精度 的 要 求 。 如 果 符 
合 要 求 , 则 不 需要 再 进行 任何 操作 ;否则 ,创建 一 个 新 的 CKMeans 对 象 ,将 该 聚 类 的 所 有 成 
员 作为 输入 数据 ,开始 新 的 聚 类 过 程 。 

由 此 看 出 ,Kmeans 程序 在 运行 过 程 中 会 重复 地 执行 第 四 步 和 第 回 步 , 不 断 地 向 聚 类 树 
中 插入 新 的 节点 。 同 时 也 不 难看 出 ,在 聚 类 树 中 , 子 节点 的 路 径 总 是 在 父 节点 路 径 的 基础 上 
加 上 新 的 编号 。 

(A) 匹配 距离 最 近 的 聚 类 节点 

在 聚 类 树 中 为 一 条 数据 记录 寻找 距离 最 近 的 聚 类 节点 的 过 程 实际 上 就 是 为 测试 数 
据 预 测 类 别 的 过 程 。 在 编程 中 采用 递归 的 方法 ,从 聚 类 树 的 根 节点 开始 ,不 断 地 向 下 
寻找 距离 最 近 的 节点 。ClusterTree 类 提供 函数 FindNearestCluster 作为 对 外 接口 ,而 
ClusterNode 类 的 GetNearestCluster 函数 则 实现 了 整个 递归 过 程 。 上 述 两 个 函数 的 定 
义 如 下 。 

//* w w w w x w w w w w E R HERI SS S Ej SRE PSI H EDS E Ro w w w w w x x w w w w 

ClusterNode * ClusterTree: :FindNearestCluster (strMyRecord * Record) 

t 


257 


258. 网 络 安全 高 级 软件 编程 技术 


ClusterNode * pNearestNode; 
// 调 用 根 节点 的 GetNearestcluster 函数 
ENearestNode= pRootNode- > GetNearestCluster (Record) ; 
retum pNearestNode; 
) 
/xx 递归 函数 ,在 以 该 节点 为 根 的 子 树 中 ,获得 与 数据 记录 最 近 的 聚 类 节点 * * 
ClusterNode * ClusterNode: :GetNearestCluster (strMyRecord * pRecord) 
( 
int i; 
float MinDistanoe,'TrpDistanoe; // 最 短 距离 ,临时 距离 
ClusterNode * FNearestNode; //#B BS Rk lt 5 pa 38 $r 
ClusterNode * pInpNode; // 临 时 节点 指针 


// 浏 断 是 否 为 叶子 节点 
if(Isleaf» 0) 
t 

FNearestNode= this; 


pNearestNode- this; 
// 计 算 本 节点 的 聚 类 中 心 与 记录 的 距离 dl 
MinDistance= CalCenterDi stance (pRecord) ; 
// 淹 断 是 否 有 孩子 节点 ,如 果 有 ,调用 递归 函数 ,获得 孩子 节点 所 在 的 子 树 中 
// 离 数据 距离 最 近 的 节点 指针 
for (i= 0;i< MAXLABEL; it + ) 
t 
if(pchildNode[i] != NULL) 
t 
plürpNode- pchi 1dNode [i ]- > GetNearestCluster (Record) ; 
1 
// 计 算 最 近 子 节点 与 数据 的 距离 ap 
TrpDi stance- HImeNode- > CalOenterDistance (Record) ; 
// 如 果 dx 中, 返回 本 节点 的 指针 ,否则 ,返回 子 节点 指针 
if (TrpDistanoe< MinDistanoe) 
t 
pearestNode- pImcNode; 


} 
$ 
// 返 回 最 近 节 点 的 指针 
return pNearestNode; 
} 


在 FindNearestCluster 函数 中 ,仅仅 调用 了 根 节点 的 GetNearestCluster 函数 ,在 整 棵 
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聚 类 树 中 寻找 与 记录 距离 最 近 的 节点 。 而 函数 GetNearestCluster 通过 自身 不 断 地 递归 调 
用 完成 了 对 整 棵 聚 类 树 的 查询 工作 ,并 返回 距离 最 近 节 点 的 指针 。 当 某 个 节点 调用 
GetNearestCluster 函数 时 , 它 只 负责 在 以 自身 为 父 节点 的 子 树 中 向 下 寻找 距离 最 近 的 节 
点 。 因 此 ,如 果 一 个 父 节点 需要 向 下 寻找 距离 最 近 的 节点 ,首先 要 让 所 有 孩子 节点 分 别 在 自 
身 的 子 树 中 找 出 距离 最 近 的 节点 ,然后 将 这 些 点 的 距离 与 父 节点 的 距离 进行 比较 ,从 而 找 出 
距离 最 近 的 节点 。 函 数 GetNearestCluster 就 严格 地 遵循 了 上 述 递归 思想 。 如 图 10-4 所 
IR ,函数 GetNearestCluster 的 执行 过 程 分 为 以 下 8 个 步骤 ， 


判断 当前 节点 
是 否 为 叶子 节点 ? 


1 
计算 出 当前 节点 与 数据 : 
记录 之 间 的 距离 MinDistance 将 当前 节点 作为 最 近 节点 


—pRL—— c4 


判断 当前 节点 
是 否 有 孩子 节点 ? 


Y 


' 
调用 GetNearestCluster pj fir Hi 
当前 孩子 节点 的 子 树 中 距离 最 近 
的 节点 , 并 返回 指针 pTmpNode 


调用 CalCenterDistance 函数 
计算 PTmpNode 所 指向 的 节点 与 
记录 之 间 的 距离 TmpDistance 


将 指针 pTmpNode 所 指向 
的 节点 更 新 为 最 近 节点 
[Uo 


i 


返回 最 近 节 点 的 指针 pNearestNode 


10-4 ”函数 GetNearestCluster 流程 图 


CD 判断 当前 节点 是 否 为 叶子 节点 。 若 是 ,将 距离 最 近 节 点 的 指针 pNearestNode 指向 
当前 节点 并 返回 ;否则 ,继续 下 面 的 步骤 。 
@ 计算 出 当前 节点 与 数据 记录 之 间 的 距离 MinDistance。 
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O 判断 当前 节点 是 否 有 孩子 节点 ? 车 有 ,继续 下 面 的 步骤 ;否则 跳 至 第 @ 步 。 

(D 调用 GetNearestCluster 函数 在 当前 孩子 节点 的 子 树 中 找 出 距离 最 近 的 节点 ,并 返 
回 指针 pTmpNode。 

© 调用 CalCenterDistance 函数 计算 pTmpNode 所 指向 的 节点 与 数据 记录 之 间 的 距离 
TmpDistance。 

判断 距离 TmpDistance 是 否 小 于 距离 MinDistance? 若是 ,继续 下 面 的 步骤 ;否则 ， 
跳 至 第 @ 步 。 

CD 将 指针 pTmpNode 所 指向 的 节点 更 新 为 距离 最 近 的 节点 。 用 指针 pNearestNode 
指向 该 节点 ,并 用 MinDistance 表示 最 近 距 离 的 大 小 。 然 后 跳 至 第 @ 步 。 

@ 返回 最 近 节 点 的 指针 pNearestNode, 退 出 函数 。 


5. Kmeans 程序 main 函数 的 设计 与 实现 


在 Kmeans 程序 中 ,main 函数 通过 调用 ClusterNode 类 与 ClusterTree 类 所 提供 的 接 
口 函数 将 两 者 有 机 地 结合 起 来 。 它 不 仅 使 用 K-Means 算法 对 测试 数据 集 进行 多 次 聚 类 分 
析 ,建立 了 入 侵 检 测 模型 ,还 利用 该 模型 对 测试 数据 集中 的 数据 进行 类 别 预测 。 如 图 10-5 
所 示 ,main 函数 的 执行 过 程 分 为 以 下 8 个 步骤 : 


使 用 指针 pClusterTree 创 建 一 个 聚 类 树 对 象 
1 


创建 CKMeans 类 对 象 m. CKMeans 
i 
调用 函数 ReadTrainingRecords 读 取 训 练 数据 集中 的 数据 
i 
调用 函数 RunKMeans 开 始 递归 聚 类 过 程 ， 生 成 聚 类 树 
1 
将 聚 类 结果 打印 到 日 志文 件 中 
i 
调用 函数 ReadTestFile 读 取 测 试 数据 集中 的 数据 


i 
调用 函数 FindNearestCluster 为 测试 数据 寻找 最 近 的 
聚 类 节点 ， 并 将 该 节点 的 类 别 作为 这 条 记录 的 预测 类 别 
i 
将 数据 记录 的 预测 类 别 与 正确 类 别 进行 比较 ， 
统计 模型 预测 的 准确 率 ， 更 新 混淆 矩阵 
1 
打印 混淆 矩阵 


退出 


图 10-5 Kmeans 程序 的 main 函数 流程 图 
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(1) 分 别 创建 CKMeans 类 与 ClusterTree 类 的 对 象 。 用 指针 pClusterTree 指向 聚 类 
树 。 将 CKMeans 类 对 象 m_CKMeans 的 KmeansID 设置 为 1, 

(2) 调用 m_CKMeans 对 象 的 ReadTrainingRecords 函数 ,从 数据 预 处 理 后 的 训练 数据 
集 文件 kddcup. data_10_percent_datatrea 中 读 取 数 据 。 

(3) 将 K 值 设置 成 5, 调用 m_CKMeans 对 象 的 RunKMeans 函数 开始 递归 聚 类 过 程 。 
在 此 过 程 中 会 产生 新 的 聚 类 节点 ,需要 为 这 些 节点 创建 新 的 CKMeans 类 对 象 ,同时 将 这 些 
节点 插入 聚 类 树 中 。 

(4) 整个 聚 类 过 程 结束 后 ,将 聚 类 信息 输入 到 日 志文 件 Log. txt 中 。 

(5) 调用 函数 ReadTestFile 将 测试 数据 集 文件 corrected_datatreat 中 的 测试 数据 读 入 
链表 pTestRedList 中 。 

(6) 遍历 链表 pTestRcdList。 调 用 函数 FindNearestCluster 为 每 一 条 记录 寻找 聚 类 树 
中 距离 最 近 的 聚 类 节点 。 将 该 聚 类 节点 的 类 别 作为 记录 的 预测 类 别 。 

(7) 将 测试 数据 的 预测 类 别 与 真实 类 别 进 行 比较 ,将 结果 记录 到 Result. txt 文件 中 。 
统计 预测 结果 的 准确 性 ,并 更 新 混淆 矩阵 。 

(8) 在 所 有 的 测试 数据 预测 完毕 后 ,打印 混淆 矩阵 。 


10.4 扩展 与 提高 


10.4.1 聚 类 精度 的 选取 对 入 侵 检 测 模型 的 影响 


聚 类 精度 (cluster precision) 是 指 一 个 聚 类 中 干扰 数据 占 主 类 别 数据 的 比例 。 聚 类 精度 的 
大 小 直接 决定 了 一 个 聚 类 是 否 需 要 再 次 使 用 K-Means 算法 进行 聚 类 分 析 。 但 是 如 何 设 定 聚 
类 精度 一 直 是 影响 入 侵 检测 模型 准确 性 的 重要 因素 。 聚 类 精度 设置 过 高 ,会 造成 类 别 划 分 不 
准确 的 问题 。 一 个 聚 类 中 往往 会 包含 多 种 类 别 的 数据 。 这 些 干 扰 数 据 越 多 ,入 侵 检测 模型 的 
准确 性 就 越 低 。 因 此 ,为 了 提高 准确 性 ,通常 聚 类 精度 都 会 选择 较 小 的 数值 。 但 是 如 果 聚 类 精 
度 的 数值 降低 ,Kmeans 程序 的 递归 次 数 将 会 增加 ,所 占用 的 资源 也 会 随 之 增加 。 有 时 候 ,一 味 
追求 较 小 的 聚 类 精度 ,可 能 会 造成 整个 程序 无 法 停止 . 聚 类 树 的 生成 过 程 无 法 收敛 的 情况 。 综 
上 所 述 ,合理 地 选择 聚 类 精度 的 标准 有 助 于 建立 高 效 、 准 确 的 入侵 检测 模型 。 

然而 ,只 考虑 聚 类 精度 是 不 够 的 。 在 聚 类 精度 符合 要 求 的 情况 下 ,还 会 出 现 一 些 特殊 的 
问题 。 例 如 ,假设 两 个 聚 类 的 聚 类 精度 都 是 0. 1, 一 个 聚 类 包含 10 条 干扰 数据 和 100 条 主 
类 别 数据 ,而 另 一 个 聚 类 包含 1000 条 干扰 数据 和 10000 条 主 类 别 数据 。 显 然 ,前 者 不 需要 
再 继续 取 类 ,而 后 者 虽然 达到 了 聚 类 精度 的 标准 ,但 仍 包含 1000 条 干扰 数据 。 对 于 这 个 聚 
类 来 说 ,拥有 如 此 多 的 干扰 数据 ,完全 可 以 再 进行 一 次 聚 类 分 析 将 这 些 干扰 数据 分 离开 来 。 
鉴于 上 述 考虑 ,规定 聚 类 中 干扰 数据 的 数量 可 以 弥补 只 根据 聚 类 精度 来 判定 程序 是 否 继续 
递归 的 不 足 , 可 以 有 效 地 防止 特殊 情况 的 发 生 。 

根据 上 述 两 点 ,本 章 的 编程 中 将 根据 聚 类 节点 在 聚 类 树 中 所 处 的 不 同 层次 ,对 聚 类 精度 
与 干扰 数据 的 数目 设 定 不 同 的 标准 。 具 体 方案 如 下 : 

CD 首先 在 每 一 个 CKmeans 对 象 中 用 m_ClusterLevel 来 表示 该 对 象 在 聚 类 树 中 所 处 
的 层次 。 规 定 根 节点 的 层次 为 1, 各 级 子 节点 的 层次 依次 递增 。 
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(2) CKmeans 类 的 IsClusterOK 函数 会 计算 当前 的 聚 类 精度 并 将 结果 保存 在 变量 
Result 中 。 然 后 根据 m_ClusterLevel 变量 的 不 同 数 值 对 Result 进行 检查 ,做 出 相应 的 操 
作 。 根 据 聚 类 层次 是 否 大 于 INTERLEVEL( 默 认 设置 为 3) ,选择 聚 类 精度 时 分 别 按照 以 下 
两 种 标准 。 

(D `M m_ClusterLevel 小 于 等 于 INTERLEVEL 时 ,首先 判断 干扰 数据 的 数目 是 否 大 于 
100, 若 是 ,返回 false, 要 求 继续 聚 类 ;否则 ,继续 判断 聚 类 精度 是 否 小 于 CLUSTER _ 
PRECISION( 程 序 中 设 为 0. D ,若是 ,返回 true, 不 再 进行 聚 类 ;否则 ,返回 false, 

@ 当 m_ClusterLevel 大 于 INTERLEVEL 时 ,首先 判断 干扰 数据 的 数目 是 否 大 于 
500, 若 是 ,返回 false, 要 求 继续 聚 类 ;否则 ,继续 判断 聚 类 精度 是 否 符合 要 求 。 利 用 下 式 来 
判断 聚 类 精度 是 否 小 于 设 定 的 标准 ,若是 , 则 返回 true, 不 再 进行 聚 类 ;否则 返回 false, 

Result < (m ClusterLevel — INTERLEVEL) x CLUSTER PRECISION 

上 述 方案 对 聚 类 精度 的 设置 如 图 10-6 所 示 。 图 中 CP 表示 当前 聚 类 层次 所 要 求 的 聚 类 
精度 。 可 以 看 出 , 随 着 聚 类 层次 的 不 断 增 大 , 聚 类 精度 的 要 求 也 越 来 越 低 。 这 样 既 保 证 了 在 
程序 刚 开始 运行 时 生成 的 聚 类 有 和 较 低 的 精度 ,也 保证 了 随 着 聚 类 层次 地 不 断 增加 整个 聚 类 
过 程 逐渐 达到 收敛 的 状态 。 


CP=Cluster Precision 


Level-6 


Level-5 


Level-4 


Level 3 


10-6 ” 聚 类 精度 设置 图 


10.4.2 基于 Linux 平台 的 入 侵 检 测 工具 


目前 ,基于 Linux 平台 的 入 侵 检测 工具 有 很 多 ,其 中 最 有 代表 性 的 是 Snort 和 PSAD。 
这 两 款 软件 具有 各 自 不 同 的 特点 。 


1. Snort 


早 在 1998 年 ,Martin Roesch 编写 了 一 个 开放 源 代码 的 入 侵 检 测 工具 ,命名 为 Snort。 
迄今 为 止 ,Snort 已 发 展 成 为 一 个 具有 跨 平台 ,能 够 提供 实时 流量 分 析 以 及 记录 网 络 IP 数 
据 报 等 特性 的 入 侵 检 测 与 防御 系统 。 
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Snort 有 3 种 工作 模式 : 嗅 探 器 .数据 包 记录 器 及 网 络 人 侵 检 测 系统 。 嗅 探 器 模式 仅仅 
是 从 网 络 上 读 取 数据 包 并 作为 连续 不 断 的 数据 流 显示 在 终端 上 。 数 据 包 记录 器 模式 把 数据 
包 记 录 到 硬盘 上 。 网 路 入 侵 检测 模式 是 最 复杂 的 ,而 且 是 可 配置 的 。 用 户 可 以 让 Snort 分 
析 网 络 数据 流 以 匹配 用 户 定义 的 一 些 规则 ,并 根据 检测 结果 采取 一 定 的 操作 。 

网 络 人 侵 检测 系统 (NIDS) 是 Snort 最 重要 的 工作 模式 。 可 以 使 用 下 面 的 命令 行 来 启 
动 这 一 模式 。 

-/snort- dh 192.168.1.0/24- 1./1og- c snort.conf 


其 中 snort, conf 是 规则 集 文件 。Snort 会 把 每 个 包 与 规则 集 进行 匹配 ,发 现 符 合 规则 
的 包 就 采取 相应 的 操作 。 上 述 命 令 是 使 用 Snort 作为 网 络 人 侵 检 测 系统 最 基本 的 形式 ,将 
符合 规则 的 包 记录 在 日 志 中 ,并 以 ASCII 形式 保存 在 层次 的 目录 结构 里 。 

Snort 采用 规则 匹配 的 方式 检测 入 侵 的 数据 包 , 因 此 Snort 规则 的 编写 十 分 重要 。 
Snort 使 用 一 种 简单 的 、 轻 量 级 的 规则 描述 语言 来 编写 规则 。 在 使 用 这 种 语言 时 ,需要 掌握 
以 下 原则 。 

Snort 规则 分 为 两 个 逻辑 部 分 : 规则 头 和 规则 选项 。 规 则 头 包 含 规则 的 动作 、 协 议 、 源 
和 目标 IP 地 址 与 网 络 掩 码 ,以 及 源 和 目标 端口 信息 ;规则 选项 部 分 包含 报警 消息 内 容 和 要 
检查 的 包 的 具体 部 分 。 下 面 是 一 条 规则 范例 : 


alert tcp any any-* 192.168.1.0/24 111 (content:"| 00 01 86 a5| ";msg:"mountd access"; ) 


括号 前 的 部 分 是 规则 头 (rule header) ,包含 在 括号 内 的 部 分 是 规则 选项 (rule options) 。 
规则 选项 部 分 中 冒号 前 的 单词 称 为 选项 关键 字 (option keywords)。 注 意 ,不 是 所 有 的 规则 
都 必须 包含 规则 选项 部 分 ,选项 部 分 只 是 为 了 对 符合 规则 的 数据 包 所 进行 的 操作 进行 更 加 
严格 的 定义 ,比如 收集 ,报警 和 丢弃 等 。 组 成 一 个 规则 的 所 有 元 素 对 于 指定 的 操作 都 必须 是 
真 的 。 当 多 个 元 素 放 在 一 起 时 ,可 以 认为 它们 之 间 是 逻辑 与 (AND) 的 关系 。 同 时 ,Snort 规 
则 库 文件 中 的 不 同 规则 之 间 可 以 认为 是 逻辑 或 (OR) 的 关系 。 


2. PSAD 


端口 扫描 攻击 探测 器 PSAD(The Port Scan Attack Detector) 是 一 种 入 侵 检测 工具 , 它 
能 够 检测 出 不 同类 型 的 可 疑 流量 ,比如 Nmap 的 端口 扫描 ,DDos 攻击 以 及 对 系统 某 个 协议 
的 暴力 破解 等 。 通 过 分 析 防 火 墙 的 日 志 ,.PSAD 不 仅 能 够 检测 出 某 种 可 疑 的 攻击 ,而 且 还 能 
够 通过 改变 防火 墙 的 规则 来 响应 这 一 攻击 。 

PSAD 与 iptables 和 Snort 联系 非常 紧密 。PSAD 在 Linux 系统 中 运行 了 3 个 轻 量 级 
的 系统 守护 进程 。 这 些 守护 进程 会 分 析 iptables 的 日 志 信息 并 检测 出 端口 扫描 以 及 其 他 可 
疑 的 流量 。 图 10-7 是 PSAD 部 署 在 防火 墙 iptables 上 的 典型 结构 图 。 

从 图 10-7 中 可 以 看 出 PSAD 能 够 快速 地 访问 防火 墙 的 日 志 数 据 。PSAD 还 可 以 利用 
Snort 来 检测 各 种 后 门 程序 ,DDos 工具 ,以 及 高 级 的 端口 扫描 器 的 探测 行为 。 通 过 与 Snort 
结合 ,PSAD 能 够 检测 出 Snort 规则 集中 所 描述 的 各 种 攻击 。 此 外 ,PSAD 还 能 够 利用 TCP 
SYN 数据 包 的 报头 字段 取得 发 起 扫描 行为 的 远程 主机 的 指纹 。 


263 


264 


网 络 安全 高 级 软件 编程 技术 


LAN 
192.168.10.0/24 


Scan/Attack 


Scanner/ < J 
Attacker iptables/psad Webserver DNS Server 
ILLI 12:222 192.168.10.5 192.168.10.10 


图 10-7 PSAD 部 署 图 


另外 ,PSAD 还 提供 了 数据 输出 的 接口 。 用 户 可 以 将 PSAD 中 的 数据 导入 到 软件 
AfterGlow 和 Gnuplotd 中 。 通 过 这 些 软件 绘制 的 各 种 图 表 进 一 步 分 析 到 底 是 谁 正在 攻击 
防火 墙 。 


第 1l 
基于 Netfilter 防 火 墙 的 设计 与 实现 


11.1 本 音 训 练 目的 与 要 求 


网 络 上 充斥 着 各 种 病毒 .木马 以 及 针对 主机 漏洞 的 攻击 。 如 何 使 网 络 主机 能 有 效 抵御 
各 种 非法 入 侵 ,保证 重要 数据 的 机 密 性 和 安全 性 已 成 为 当前 网 络 上 一 个 蝇 待 解决 的 问题 。 
防火 墙 是 保护 网 络 资源 的 重要 手段 之 一 。 本 章 以 Netfilter/IPTables 为 工具 ,研究 防火 墙 系 
统 设计 与 软件 编程 的 方法 。 

本 章 训练 的 主要 目的 是 : 

(1) 理解 防火 墙 技术 的 基本 工作 原理 。 

(2) 理解 Linux 环境 中 Netfilter/IPTables 的 工作 机 制 。 

(3) 掌握 对 Netfilter 内 核 模块 进行 扩展 编程 的 基本 方法 。 

(4) 掌握 通过 IPTables 构建 防火 墙 的 基本 方法 。 

本 章 训练 要 求 : 

(1) 对 Netfilter 内 核 模块 进行 扩展 编程 来 实现 简单 的 防火 墙 。 

(2) 实现 基于 协议 的 数据 报 过 滤 功 能 。 

(3) 实现 基于 源 TP 地 址 的 数据 报 过 滤 功 能 。 

(4) 实现 基于 目的 端口 的 TCP 包 过 滤 功 能 。 


11.2 相关 背景 知识 
11.2.1 防火 墙 相关 知识 介绍 


1. 防火 墙 的 基本 概念 


(1) 防火 墙 的 作用 

防火 墙 提 供 了 网 络 之 间或 网 络 对 主机 的 访问 控制 ,以 及 地 址 隐藏 等 技术 手段 ,保护 网 络 
资源 免 受 非法 侵害 ,是 目前 常用 的 网 络 安全 设备 之 一 。 

(2) 防火 墙 的 实现 方式 

防火 墙 的 具体 实现 有 多 种 形式 ,通常 是 一 组 硬件 设备 (路 由 器 和 计算 机 ) 和 适当 软件 的 
组 合 。 实 现 防火 墙 软件 的 方式 有 很 多 种 ,有 一 些 应 用 型 防火 墙 只 对 特定 类 型 的 网 络 连接 提 
供 保 护 ( 如 针对 SMTP 或 HTTP 协议 ) 。 
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(3) 防火 墙 在 网 络 中 的 位 置 

防火 墙 在 网 络 中 的 位 置 如 图 11-1 所 示 。 客 户 端 对 服务 器 进行 访问 时 不 是 直接 与 服务 
器 进行 通信 的 。 客 户 端 发 送 的 数据 报 必须 首先 经 过 服务 器 端 防火 墙 的 检测 ,通过 检测 的 数 
据 报 才 会 转发 给 服务 器 ,和 否则 将 被 过 滤 掉 。 


服务 器 g 


防火 墙 A 


die Pi 
图 11-1 防火 墙 在 网 络 中 的 位 置 示意 图 


(4) 常见 的 防火 墙 类 型 

CD 包 过 滤 型 防火 墙 

包 过 滤 技术 作用 于 网 络 层 (IP 协议 ) ,也 被 称 为 网 络 层 防 火 墙 。 主 要 是 在 网 络 层 对 数据 
报 进 行 监控 与 分 析 ,按照 事先 设 定 好 的 过 滤 规 则 ,检查 数据 流 中 的 每 个 数据 报 的 源 地 址 、 目 
的 地 址 .端口 号 和 协议 状态 等 字段 来 确定 允许 哪些 数据 报 通过 。 其 核心 主要 是 过 滤 规 则 的 
制定 。 

© 应 用 网 关 型 防火 墙 

应 用 网 关 型 防火 墙 使 用 代理 技术 ,所 以 又 被 称 为 代理 防火 墙 。 它 在 网 络 的 应 用 层 负责 
接收 外 来 的 应 用 连接 请 求 ,进行 安全 检查 后 ,再 把 请 求 连接 到 具体 的 内 部 网 络 服务 中 去 。 同 
样 内 部 网 络 到 外 部 的 连接 也 会 被 监控 。 从 内 部 发 出 的 数据 报 经 过 这 样 的 防火 墙 处 理 后 ,就 
好 像 是 从 防火 墙 外 部 网 卡 发 出 一 样 , 从 而 可 以 达到 隐藏 内 部 网 络 结构 的 作用 。 应 用 网 关 型 
防火 墙 中 的 代理 技术 能 完全 监视 整个 连接 的 过 程 ,并 做 出 详细 记录 ,还 能 对 用 户 身 份 进行 验 
证 。 但 和 包 过 滤 型 防火 墙 相 比 , 它 缺 少 透明 度 ,对 网 络 性 能 有 一 定 影响 ,而 且 对 每 一 种 应 用 
服务 都 必须 有 特定 的 代理 模块 ,实现 起 来 比较 困难 。 


2. Linux 防火 墙 


Linux 的 防火 墙 技术 从 最 初 的 设计 到 现在 相对 成 熟 的 体系 经 历 了 若干 代 的 更 替 。 
Linux 2.0 版 内 核 采 用 一 个 被 称 之 为 ipforward 的 防火 墙 来 操作 内 核 包 过 滤 规 则 ,ipforward 
是 Alan Cox 在 Linux 内 核发 展 的 初期 从 FreeBSD 的 内 核 代 码 中 移植 过 来 的 。 后 来 在 
Linux 2. 2 版 内 核 中 ipchains 取代 了 ipforward。 由 于 ipchains 是 在 内 核 级 运行 的 C 和 
CH 代码 ,没有 很 好 地 提供 从 用 户 空间 访问 ipchains 的 接口 ,从 而 导致 防火 墙 应 用 程序 不 能 使 
用 许多 常用 的 语言 编写 ,这 就 限制 了 ipchains 的 可 扩展 性 。 后 来 Paul Russell 在 Linux 2. 3 版 
内 核 系 列 的 开发 过 程 中 发 展 了 Netfilter 结构 ,同时 也 相应 地 开发 了 一 个 被 称 之 为 IPTables 
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的 管理 组 件 。 通 过 IPTables 组 件 , 用 户 可 以 很 方便 地 在 用 户 空间 对 Netfilter 进行 设置 ,从 
而 定制 自己 的 防火 墙 。 本 章 的 训练 主要 就 是 通过 对 Netfilter 进行 内 核 模块 扩展 编程 来 实 
现 防火 墙 的 功能 ,同时 在 扩展 与 提高 中 讨论 如 何 通 过 IPTables 组 件 来 快速 搭建 一 个 自 定义 
的 防火 墙 。 


11.2.2 Netfilter 


1. Netfilter 在 内 核 中 的 位 置 


在 Linux 内 核 中 ,Netfilter 处 在 网 络 层 (IP 协议 ) 和 防火 墙 内 核 功能 模块 之 间 , 其 结构 
如 图 11-2 所 示 。 内 核 通过 Netfilter 将 防火 墙 对 


数据 报 的 处 理 功能 在 IP 层 中 实现 , Netfilter q EUR US 
IP 层 数 据 报 的 处 理 功 能 可 以 结合 在 一 起 ,同时 由 i 

于 它们 的 结构 相对 独立 ,又 可 以 完全 分 离 ,构成 不 I 

同 的 模块 。Netfilter 的 设计 思想 保证 了 它 的 灵活 BSD m" 
性 与 高 效 性 。Linux 可 以 支持 不 同 的 网 络 层 协 i 

议 ,如 IPv4, IPv6 5j IPX 等 。Netfilter 为 每 种 网 SET 


络 协议 定义 了 一 套 钩子 (hook) 函数 。 这 些 钩 子 
函数 在 数据 报 流 经 协议 栈 的 几 个 检查 点 时 被 调 ' 
用 ,它们 可 以 对 数据 报 进行 各 种 处 理 ,如 修改 、 丢 ”| TCP | UDP | | Amau 
弃 或 传送 给 用 户 进程 等 。 | 


IPE Netfilter 


2. Netfilter 检查 点 


网 络 数据 报 按照 其 源 IP 地 址 和 目的 IP 地 | _ 通用 网 络 接口 
址 ,可 以 分 为 3 38, 流入 的 、 流 经 的 和 流出 的 数据 | 
报 。 其 中 流入 和 流 经 的 数据 报 需 要 经 过 路 由 才能 | 网 络 设备 驱动 程序 
区 分 ,而 流 经 和 流出 的 数据 报 则 需要 通过 判断 数 
据 包 处 理 流 程 是 否 包 含 从 一 个 NIC (Network 网 络 硬件 设备 
Interface Card) 转 到 另 一 个 NIC 的 转发 的 过 程 加 
以 区 分 。Netfilter 根据 网 络 数据 报 的 流向 ,在 以 以 太 网 
下 5 个 检查 点 插入 钩子 函数 ,这 些 钩 子 函 数 将 在 
数据 报 流 经 该 检查 点 时 执行 。 

(1) NF_IP_PRE_ROUTING ,在 数据 报 进入 
路 由 之 前 执行 。 

(2) NF_IP_FORWARD, 在 数据 报 转向 另 一 个 NIC 之 前 执行 。 

(3) NF IP POST ROUTING .在 数据 报 流出 之 前 执行 。 

(4) NF_IP_LOCAL _IN, 在 进入 本 地 的 数据 报 做 路 由 之 后 执行 。 

(5) NF_IP_LOCAL_OUT, 在 本 地 数据 报 做 流出 路 由 之 前 执行 。 

图 11-3 给 出 了 5 个 检查 点 的 位 置 示意 图 。 

由 图 11-3 可 知 , 当 某 个 数据 报 通 过 完整 性 检测 以 后 就 会 从 数据 报 的 入 口 进入 系统 ， 


一 一 | 


Æ 11-2 Netfilter 在 内 核 中 的 位 置 示意 图 
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RE | es ROUTING 


数据 报 入 口 [NF IP. PRE NF_IP_ NF_IP_POST_ | 数据 报 出 口 
^| RoUTING FORWARD NM 7 


NF IP. LOCAL 


本 地 进程 处 理 


本 地 进程 产生 
数据 包 


图 11-3 Netfilter 检查 点 示意 图 


首先 流 经 NF IP PRE ROUTING 检查 点 , 接 下 来 由 网 络 协议 栈 决定 数据 报 是 送 给 本 地 进 
程 ,还 是 需要 转发 到 其 他 的 网 卡 ,发 往 本 地 进程 的 数据 报 将 流 经 NF IP. LOCAL IN 检查 
点 ;而 需要 转发 给 其 他 网 卡 的 数据 报 则 流 经 NF IP FORWARD 检查 点 ;在 数据 报 最 终 发 送 
到 网 卡 驱 动 程序 之 前 ,还 要 流 经 NF_IP_POST_ROUTING 检查 点 。 而 对 于 本 地 进程 发 送 
的 数据 报 , 则 首先 流 经 NF_IP_LOCAL_OUT 检查 点 ,然后 经 过 NF IP POST ROUTING 
检查 点 后 进入 网 络 。 


3. Netfilter 钩子 函数 


Netfilter 模块 为 每 种 网 络 协议 定义 了 一 套 钧 子 函数 ,存储 在 一 个 list head 结构 的 二 维 数 
组 中 。 每 个 希望 髋 入 Netfilter 中 的 模块 都 可 以 在 协议 族 的 检查 点 上 注册 钩子 函数 ,这 些 钧 子 
函数 将 形成 一 条 函数 指针 链 。 数 据 报 在 协议 栈 上 流 经 5 个 检查 点 时 会 被 Netfilter 模块 在 这 些 
检查 点 上 注册 的 钩子 函数 捕获 并 分 析 。Netfilter 模块 根据 分 析 的 结果 ,决定 数据 报 的 下 一 步 
的 动作 : 原封 不 动 地 放 回 IPv4 协议 栈 ; 或 者 经 过 一 些 修改 再 放 回 去 ;或 者 直接 丢弃 。 

每 个 注册 的 钧 子 函 数 分 析 数 据 报 结 束 后 都 将 返回 下 列 值 之 一 ,告知 Netfilter 核心 代码 
分 析 的 结果 ,以 便 Netfilter 模块 对 数据 报 采 取 相 应 的 动作 : 

A) NF ACCEPT; 允许 数据 报 通过 ,进入 下 一 步 处 理 。 

(2) NF DROP: 丢弃 该 数据 报 。 

(3) NF. STOLEN: 由 钩子 函数 处 理 该 数据 报 , 不 再 继续 传送 。 

(4) NF. QUEUE: 将 数据 报 加 入 队列 , 交 由 用 户 程序 处 理 。 

(5) NF. REPEAT: 再 次 调用 该 钩子 函数 。 


11.2.3 IPTables 


Netfilter/IPTables 体系 结构 由 两 部 分 组 成 .一 部 分 是 Netfilter 的 钩子 函数 , 另 一 部 分 
则 是 指导 这 些 钧 子 函数 如 何 工作 的 一 系列 规则 .这 些 规则 存储 在 被 称 为 表 (table) 的 数据 结 
构 之 中 。 钩 子 函 数 通过 访问 表 中 的 规则 来 判断 应 该 返回 什么 值 给 Netfilter 模块 。IPTables 
组 件 包 含 这 些 表 以 及 对 这 些 表 进行 管理 的 命令 iptables。 本 章 的 扩展 与 提高 一 节 将 讨论 如 
何 通过 iptables 命令 来 对 这 些 表 进行 操作 。 
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1. 内 核 内 建 表 


内 核 默认 建立 3 个 表 : filter 表 nat 表 和 mangle 表 , 绝 大 部 分 数据 报 处 理 功能 都 可 以 
通过 在 这 些 内 建 的 表 中 填 人 规则 来 完成 。 

(1) filter 表 

filter 表 用 于 过 滤 数 据 报 , 根 据 事 先 设 定好 的 规则 来 判断 是 接受 还 是 拒绝 数据 报 。 它 在 
NF. IP LOCAL IN,NF IP FORWARD 和 NF IP LOCAL OUT 3 处 注册 了 钩子 函数 。 
HI filter 表 将 数据 报 进入 本 地 进程 之 前 ,数据 报 在 内 核 通过 路 由 算法 即将 被 转发 之 前 以 及 
本 地 进程 向 网 络 发 送 数据 报时 发 挥 作 用 。 

(2) nat 表 

nat 表 用 于 网 络 地 址 转换 (Network Address Translation ,NAT )。nat & f£ NF_IP_PRE 
ROUTING 和 NF IP POST_ROUTING 两 处 注册 了 钩子 函数 。 如 果 需 要 , 它 还 可 以 在 NF. IP 
_LOCAL_IN 和 NF IP LOCAL OUT 两 处 注册 钩子 ,提供 本 地 数据 报 的 地 址 转换 功能 。 

(3) mangle 表 

mangle 表 用 于 对 指定 数据 报 进行 修改 ,可 供 修改 的 数据 报 内 容 包 括 MARK, TOS, TTL, 
SECMARK 和 CONNSECMARK 这 些 字 段 。mangle fl] £4-f- PRÉC A fE Netfilter 的 NF_IP_ 
PRE ROUTING,NF IP. LOCAL. IN, NF IP FORWARD ,NF IP LOCAL OUT 和 NF_IP_ 
POST ROUTING 等 5 处 检查 点 , 即 mangle 表 可 以 在 所 有 检查 点 注册 钧 子 函数 。 

网 卡 接收 数据 报 后 ,数据 报 在 内 核 中 经 过 的 表 的 路 线 如 图 11-4 所 示 。 


mangle 
PREROUTING 


i 


nat 


mangle 
INPUT 路 一 PREROUTING 


i 
filter 路 由 选择 
INPUT 
本 地 进程 处 理 mangle 
数据 报 FORWARD 
i INTERNET 
F filter 
本 地 进程 产生 FORWARD 
数据 报 
mangle i 
OUTPUT ( i J 


nat mangle 
OUTPUT POSTROUTING 

filter nat 
OUTPUT POSTROUTING 


l 
图 11-4 数据 报 途 经 的 表 的 路 线 示意 图 
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内 核 编程 人 员 还 可 以 通过 注入 模块 的 方式 ,调用 Netfilter 的 接口 函数 创建 新 的 表 。 
Linux 内 核 中 , 表 的 定义 如 下 : 


struct ipt table 
t 


struct list head list; IRE 

char name [IPT TABIE MAXNAMFTEN]; // 表 名 ,如 "flter"、 "nat" 等 

struct ipt replace * table; // 表 模子 ,初始 为 initial table.repl 
unsigned int valid hooks; // 位 向 量 ,标示 本 表 所 影响 的 hook 
rwlock t lock; // 读 写 锁 ,初始 为 打开 状态 

struct ipt teble info* private; // 表 的 数据 区 

struct module* me; // 是 否 在 模块 中 定义 


) 
其 中 关键 的 数据 结构 为 ipt_table_info 结构 ,该 结构 描述 了 表 的 数据 结构 ,包括 表 的 大 
小 , 表 中 规则 数 等 信息 。 其 在 内 核 中 的 定义 如 下 : 


Struct ipt table info 
f 


unsigned int size; // 表 的 大 小 
unsigned int number; // 表 中 的 规则 数目 
unsigned int initial entries; // 初 始 规则 数 


unsigned int hook entry[NF IP NOMHOOKS]; 
// 记 录 所 影响 的 hook 的 规则 入 口 相对 于 后 面 entries 这 个 参数 的 偏 移 量 
unsigned int underflow[NF IP NIMIOOKS]; 
//*j hock entry 相对 应 的 规则 表 上 限 偏 移 量 , 当 无 规则 录入 时 , 相应 的 nook entry 和 
/underflow 均 为 0 
char entries[0] cacheline aligned; // 规 则 表 的 入 口 
J 


通过 Netfilter 模块 构建 防火 墙 最 常见 的 操作 就 是 在 filter 表 中 设 定 一 系列 的 规则 
(rules) ,从 而 实现 对 数据 报 过 滤 的 操作 。 在 IPTables 组 件 中 . 链 (chains) 是 规则 (rules) 的 
EE. filter 表 包 含 3 个 链 , 分 别 为 INPUT,FORWARD fll OUTPUT. 该 3 条 规则 链 将 分 
别 在 数据 报 在 进入 本 地 进程 之 前 、 数 据 报 在 内 核 通过 路 由 算法 即将 被 转发 之 前 和 本 地 进程 
向 网 络 发 送 数 据 报 前 3 个 关键 位 置 发 挥 作用 。 内 核 内 建 的 filter 表 的 初始 定义 如 下 : 

static struct ipt table packet filter 

=t 


NUL, NULL), /链表 

"filter", I FRA 

&initial table.repl, // 初 始 的 表 模 板 

FILTER VALID HOFS, // 位 向 量 

RW IOK UNICCKED, /人 锁 

NULL, // 初 始 的 private 数 据 区 为 空 


THIS MOUE // 异 块 标示 
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其 中 FILTER_VALID_HOOKS 的 定义 为 : ((1-—NF. IP6. LOCAL. IND|GLNFE - 
IP6_FORWARD) | (1—NF IP6 LOCAL. OUT)). HI 3E BJ filter 表 只 在 INPUT, 
FORWARD fll OUTPUT 这 3 个 检查 点 生效 。 初 始 的 private 数据 区 为 空 , 在 调用 ipt_ 
register_table(& packet_filter) 后 ,filter 表 的 private 数据 区 会 按照 设 定 的 模板 填充 好 。 


2. 规则 


IPTables 中 每 一 个 表 有 0 到 多 条 链 , 每 一 条 链 是 一 系列 规则 的 集合 。 每 一 条 规则 由 两 
部 分 组 成 ,第 一 部 分 包含 0 个 或 多 个 过 滤 条 件 (match) ,其 作用 是 检查 包 是 否 符合 过 滤 条 件 
(所 有 的 条 件 都 必须 成 立 才 生效 ) ,第 二 部 分 称 为 目标 (target) ,用 于 决定 如 何 处 置 符合 过 滤 
条 件 的 数据 报 。 对 每 一 条 规则 ,IPTables 维护 两 个 计数 器 : 一 个 计算 符合 条 件 的 数据 报 数 
(packet counter) ; 另 一 个 计算 该 规则 所 处 理 的 总 字 节 数 (byte counter)。 每 当 有 数据 报 符 
合 特定 规则 的 过 滤 条 件 时 ,该 规则 的 packet counter 便 会 被 累加 1, 并 将 该 数据 报 的 大 小 累 
加 到 该 规则 的 byte counter 中 。 

规则 可 以 只 包含 过 滤 条 件 和 目标 的 一 部 分 。 没 有 设 定 过 滤 条 件 时 , 则 所 有 数据 报 都 算 
符合 条 件 。 没 有 设 定 目标 时 , 则 默认 让 数据 报 继续 其 流程 ,即将 数据 报 转 入 TCP/IP 协议 栈 
进行 正常 处 理 ,而 不 会 对 数据 报 进行 任何 其 他 动作 ,只 是 该 规则 的 两 个 计数 器 会 增加 计数 而 
已 。 在 Linux 内 核 中 ,规则 用 struct ipt. entry 结构 表示 ,主要 字段 包括 匹配 用 的 TP 头 部 、 
0 个 或 多 个 过 滤 条 件 以 及 一 个 目标 。 由 于 过 滤 条 件数 目 不 定 ,所 以 一 条 规则 实际 占用 的 空 
间 是 可 变 的 。ipt_entry 结构 定义 如 下 : 


struct ipt entry 
{ 
struct ipt ip ip; // 所 要 匹配 的 数据 报 的 re 3k f 8 
unsigned int nfcache; // 位 向 量 , 表 示 本 规则 关心 数据 报 的 什么 部 分 
u intl6 t target offset; //target 区 的 偏 移 
u intlé t next. offset; // 下 一 条 规则 相对 于 本 规则 的 偏 移 
unsigned int camefram; // 位 向 量 ,标记 调用 本 规则 的 hook 
struct ipt counters counters; // 记 录 该 规则 处 理 过 的 数据 报 数 和 数据 报 总 字 节 数 
unsigned char elems [0]; //target 或 者 是 match 的 起 始 位 置 


其 中 target. offset 为 target 区 域 的 偏 移 , 一 般 target 区 域 位 于 match 区 域 之 后 ,而 
match 区 域 则 在 ipt entry 的 末尾 。target_offset 初始 化 为 sizeofCstruct ipt entry) , 即 初始 
化 时 假定 是 没有 match 的 。next_offset 为 下 一 条 规则 相对 于 本 规则 的 偏 移 ,也 即 本 规则 所 
用 空间 的 总 和 .初始 化 为 sizeof(struct ipt_entry) 十 sizeof(struct ipt target ,同样 也 是 假定 
没有 match 的 。 


3. 过 滤 条 件 


iptables 命令 用 于 设置 多 种 过 滤 条 件 , 但 是 某 些 条 件 需要 内 核 支持 相关 功能 才 行 。 
iptables 命令 默认 会 设置 一 个 一 般 性 的 IP 包 过 滤 条 件 。 因 此 即使 没有 载 入 任何 扩充 模块 ， 
用 户 也 可 以 用 他 包头 的 源 IP 地 址 .目的 IP 地 址 和 协议 类 型 等 字段 作为 过 滤 条 件 。 除 了 IP 
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之 外 的 其 他 协议 (如 ICMP、TCP 和 UDP 等 ) 必 须 载 和 人 相关 的 扩充 模块 , 才 可 以 作为 过 滤 条 
件 。 可 以 通过 iptables 的 -m 或 -match 选项 来 载 人 特定 的 模块 。 


4. 目标 


目标 (target) 决 定 了 如 何 处 理 符合 过 滤 条 件 的 数据 报 , 当 满足 过 滤 条 件 时 对 该 数据 报 
应 采取 什么 样 的 动作 ,如 接收 、 丢 弃 等 。IPTables 组 件 默认 有 4 种 目标 (如 表 11-1 所 示 )。 
如 果 想 要 加 入 其 他 的 目标 ,必须 通过 扩充 模块 来 加 入 。 表 11-1 列 出 的 只 是 IPTables 内 建 
的 目标 。 


表 11-1 IPTables 内 建 的 目标 


目 标 LL 

ACCEPT 接收 数据 报 ,处 理 后 不 再 去 匹配 其 他 的 规则 ,直接 跳 往 下 一 个 规则 链 
DROP 丢弃 数据 报 , 处 理 后 将 不 再 匹配 其 他 的 规则 ,直接 中 断 过 滤 程 序 
QUEUE 将 数据 报 传人 用 户 空间 进行 处 理 

RETURN 结束 当前 规则 链 中 的 过 滤 程 序 , 返 回 主 规则 链 ,继续 过 滤 


规则 都 挂 接 在 各 自 表 的 相应 hook 的 入 口 处 , 当 数 据 报 流 经 该 hook 时 ,对 各 个 规则 进 
行 匹配 ,对 于 与 某 个 规则 匹配 成 功 的 数据 报 , 调 用 该 规则 对 应 的 target 来 处 理 。 


11.2.4 Netfilter 内 核 模 块 扩 充 


1. Linux 内 核 模块 机 制 


操作 系统 内 核 主 要 分 为 微 内 核 和 单一 内 核 两 种 体系 结构 。 微 内 核 操 作 系 统 的 内 核 很 
小 ,只 实现 最 基本 的 服务 ,如 内 存 管 理 、 进 程 管理 等 。 而 网 络 协议 ,文件 系统 都 是 在 内 核 的 外 
层 实 现 的 。 这 样 做 的 优点 是 内 核 小 ,层次 结构 非常 清楚 ,比较 方便 扩展 。 缺 点 是 层 与 层 之 间 
的 信息 交换 使 得 系统 的 运行 效率 较 低 。 在 单一 内 核 的 操作 系统 中 ,内 存 管理 .进程 管理 、 网 
络 协议 .文件 系统 等 都 是 在 内 核 中 实现 的 ,运行 速度 非常 快 , 但 是 由 于 其 所 有 的 内 容 都 集成 
在 内 核 中 ,所 以 可 扩展 性 和 可 维护 性 较 差 。 WindowNT 就 是 微 内 核 的 体系 结构 ,Linux 操 
作 系 统 属于 单一 内 核 的 体系 结构 。 为 了 弥补 单一 内 核 体系 结构 可 扩展 性 差 的 这 一 缺陷 ， 
Linux 操作 系统 提供 了 内 核 模块 机 制 , 内 核 模块 是 可 以 动态 加 载 到 内 核 空间 运行 的 程序 , 模 
块 机 制 的 出 现 使 得 用 户 无 须 再 重新 编译 整个 内 核 就 能 挂 载 和 件 载 某 些 功能 ,从 而 实现 内 核 
的 动态 扩展 。 

内 核 模块 机 制 是 Linux 内 核 向 外 部 提供 的 一 个 接口 ,其 全 称 为 动态 可 加 载 内 核 模块 
(Loadable Kernel Module,LKM) 。 模 块 是 具有 独立 功能 的 程序 , 它 可 以 被 单独 编译 ,但 不 
能 独立 运行 。 它 在 运行 时 被 链接 到 内 核 作为 内 核 的 一 部 分 在 内 核 空间 中 运行 ,这 与 运行 在 
用 户 空间 中 的 进程 不 同 。 

用 户 编 写 内 核 模 块 时 ,在 编写 的 模块 中 必须 提供 两 个 函数 : init_module() 以 及 cleanup 
_module() 函 数 。 这 两 个 函数 在 加 载 和 删除 模块 时 将 会 被 调用 。 其 函数 原型 分 别 如 下 : 


int init module(void); 
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void cleanup module (void) ; 

内 核 模块 源 程 序 编 译 成 . ko 文件 后 (2. 6 内 核 是 . ko,2. 4 内 核 以 及 之 前 是 . o) 就 可 以 将 
其 加 载 到 内 核 中 。insmod 命令 用 于 将 模块 加 载 到 内 核 中 。 例 如 insmod filter. ko 就 是 将 
filter 这 个 模块 加 载 到 内 核 中 。 通 过 lsmod 命令 可 以 看 到 加 载 的 filter 这 个 模块 的 名 字 。 如 
果 要 将 filter 这 个 模块 删除 ,只 要 使 用 rmmod filter. ko 即 可 。insmod 在 加 载 模块 时 ,会 调 
用 模块 中 的 init_module() 函数 ,如 果 传 回 0 则 表示 成 功 ,模块 会 被 加 载 ;否则 表明 加 载 
失败 。 

2. Netfilter 内 核 模块 

Netfilter 为 每 种 网 络 协议 定义 了 一 套 钩子 函数 (hook) ,这 些 钧 子 函数 在 数据 报 流 过 协议 
栈 的 几 个 检查 点 时 被 调用 。Linux 内 核 网 络 堆栈 维护 一 个 全 局 的 二 维 数组 来 存储 这 些 钩子 函 
数 。 该 二 维 数组 定义 为 : struct list head nf_hooksLNPROTO]LNF_MAX_HOOKS], 其 中 第 一 
维 用 于 指定 协议 族 ,第 二 维 用 于 指定 hook 的 类 型 。nf_hooks 数组 中 的 元 素 定义 如 下 : 


struct nf hook ops 
1 


struct list head list; /链表 

nf hookfn* hook; // 钧 子 函 数 指针 

int pf; /协议 号 

int hooknum; / fnock 

int priority; // 优 先 级 ,在 nf hpcks 链 表 中 各 处 理 函 数 按 优先 级 排序 


k 


nf_hooks 数组 本 质 上 就 是 一 个 类 型 为 nf_hookfn 的 函数 指针 数组 。 对 数据 报 的 处 理 就 
是 通过 调用 这 些 函 数 指针 所 指向 的 函数 来 进行 的 。 注 册 一 个 Netfilter 钩子 函数 实际 上 就 
是 在 由 协议 族 和 hook 类 型 确定 的 钩子 函数 链表 中 添加 一 个 新 的 节点 。 

(1) 注册 钩子 函数 

在 Netfilter 模块 中 向 内 核 注册 钧 子 函 数 时 要 用 到 以 下 两 个 函数 : 

(D nf register hook(struct nf hook ops * reg) 

注册 函数 ,用 来 向 内 核 注 册 自 定义 的 钩子 函数 ,如 果 注 册 成 功 , 则 返回 0; 如 果 失 败 , 则 
返回 非 0 值 。 

Q) nf unregister hook(struct nf hook ops * reg) 

HAR PR X, HH SE E LCS Z HE UE RO £9 37 pa 2 , 

其 中 参数 nf. hook ops 结构 中 有 一 个 nf. hookfn 结构 的 成 员 , 即 钩子 函数 指针 。 

(2) 钩子 函数 的 原型 

钧 子 函 数 的 原型 如 下 : 

typedef unsigned int nf hookfn (unsigned int hcoknum,struct sk buff * * skb,const struct net_device * in, 

const struct net device* out, int (* okfn) (struct sk buff )) 

(D 参数 hooknum 用 于 指定 hook 类 型 。 

© 参数 skb 是 一 个 指向 指针 的 指针 ,该 指针 指向 的 指针 指向 一 个 sk buff 数据 结构 ， 
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Linux 网 络 协议 栈 中 用 sk. buff 这 一 数据 结构 来 描述 数据 报 。 后 面 将 详细 介绍 该 结构 。 

@ 参数 in 用 于 指定 数据 报到 达 的 网 络 接口 。 

© 参数 out 用 于 指定 数据 报 出 去 的 网 络 接口 。out 和 in 都 是 net_device 结构 的 指针 ， 
net. device 结构 的 定义 在 文件 linux/netdevice. h P. Linux 用 该 结构 来 描述 网 络 接口 。 一 
般 情 况 下 ,函数 只 会 提供 out 和 in 这 两 个 参数 中 的 其 中 之 一 。 例 如 : 参数 in 只 用 于 NF IP 
_PRE_ROUTING 和 NF IP LOCAL IN 类 型 的 钩子 函数 ,而 参数 out. 只 用 于 NF_IP_ 
LOCAL OUT fll NF IP POST ROUTING 类 型 的 钧 子 函数 。 

C) 函数 的 最 后 一 个 参数 是 一 个 名 为 okfn 的 函数 指针 ,该 函数 以 一 个 sk buff 数据 结构 
作为 它 唯一 的 参数 ,并 且 返 回 一 个 整 型 值 。 其 作用 就 是 如 果 没 有 注册 任何 钩子 函数 ， 
Netfilter 将 调用 该 函数 对 数据 报 进行 后 续 处 理 。 

(3) sk buff 结构 

Linux 网 络 协议 栈 中 用 sk. buff 这 一 数据 结构 来 描述 数据 报 。 本 章 实现 的 防火 墙 程序 
也 是 根据 该 结构 中 的 一 些 字段 来 设置 过 滤 条 件 , 从 而 进行 数据 报 过 滤 的 。 该 数据 结构 在 文 
TF linux/skbuff. h 中 进行 了 定义 (代码 如 下 ) 。 


struct sk buff ( 
//'Ihese two members mist be first. 
struct sk buff * next; 
struct sk buff * prev; 
struct sock * sk; 
struct skb timeval tstam; 
struct net device * dev; 
struct net device * input dev; 
union ( 
struct tcphdr * th; 
struct udphdr *uh; 
struct iamhdr * iah; 
struct ighdr * ipirh; 
struct ipv&dr * iwah; 
unsigned char * raw; 
} h; 
union ( 
struct iphdr * iph; 
struct ipv&dr * ipvü; 
struct arphdr * arh; 
unsigned char * raw; 
} nh; 
union { 
unsigned char * raw; 
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sk buff 数据 结构 中 最 常用 的 部 分 就 是 h.nh 与 mac 的 联合 Cunion)。 这 3 个 联合 分 别 
用 于 描述 传输 层 包 头 ( 如 UDP、TCP 及 ICMP) 、 网 络 层 包头 (如 IPv4/6、ARP) 以 及 链 路 层 
包头 。 每 个 联合 都 包含 了 几 个 结构 ,具体 哪个 结构 起 作用 依赖 于 具体 数据 报 中 使 用 的 协议 。 
在 程序 中 可 以 通过 sk buff 指针 ,定位 到 数据 报 的 头 部 ,然后 通过 分 析 数 据 报 的 头 部 字段 对 
数据 报 进 行 过 滤 。 


11.3 实例 编程 练习 


11.3.1 编程 练习 要 求 


上 一 节 介 绍 了 Netfilter 和 内 核 模块 的 相关 知识 , 接 下 来 通过 实现 3 个 示例 程序 来 说 明 
如 何 对 Netfilter 内 核 模块 进行 扩展 编程 。 第 1 个 程序 实现 基于 协议 过 滤 数 据 报 的 功能 ,第 
2 个 程序 实现 基于 源 IP 地 址 过 滤 数据 报 的 功能 ,第 3 个 示例 实现 基于 目的 端口 过 滤 TCP 
包 的 功能 。 这 3 个 示例 程序 的 主体 架构 基本 一 样 ,主要 的 区 别 在 于 其 使 用 的 钩子 函数 。 程 
序 通 过 钧 子 函 数 对 数据 报 实行 不 同 的 操作 从 而 实现 不 同方 式 的 过 滤 。 


11.3.2. 编程 训练 设计 与 分 析 


1. 基于 协议 过 滤 的 示例 程序 


该 程序 要 实现 的 功能 是 根据 传输 层 协议 来 进行 数据 报 的 过 滤 。 即 拒绝 ICMP 包 , 只 人 允 
许 TCP 包 和 UDP 包 通 过 。 

CD 程序 中 的 钩子 函数 

该 程序 中 的 钧 子 函 数 定义 如 下 : 


unsigned int hook func(unsigned int hooknum, struct sk buff * * skb, const struct net device * in, const 
struct net device* out,int (* ckfn) (struct sk buff* )) 
t 
struct sk buff * pekb- * skb; 
switch (pskb- > nh. iph- > protocol) 
t 
case IPFEOTO IOMP: 
t 
printk("ICMP Packet: ROPAn") ; 
return NF LFOP; 
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printk("UDP Packet:ACCEPTNn"); 
return NF ACCEPT; 


printk("Unkncwn Packet:DROPAn") ; 
return NF DROP; 


) 


根据 前 面 小 节 介绍 的 关于 sk. buff 结构 的 知识 ,程序 可 以 通过 一 个 sk buff 指针 来 定位 
数据 报 的 IP 头 部 ,然后 根据 该 头 部 的 协议 字段 进行 数据 报 的 过 滤 。 

在 内 核 编程 中 ,不 能 使 用 用 户 态 C 语 言 库 函数 中 的 printf() 函数 来 输出 信息 ,而 只 能 使 
用 printkQ 〇 函数 。 但 是 尽管 使 用 printk() 函数 来 输出 信息 ,在 控制 台 也 不 能 看 到 输出 的 信 
息 。 这 是 因为 内 核 中 printk( 〇 函数 的 设计 目的 并 不 是 为 了 和 用 户 交流 , 它 实际 上 是 内 核 的 
一 种 日 志 机 制 , 是 用 来 记录 日 志 信 息 或 者 给 出 警告 提示 的 。 每 个 printk 都 会 有 个 优先 级 ， 
内 核 一 共有 8 个 优先 级 ,它们 都 有 对 应 的 宏 定 义 。 如 果 未 指定 优先 级 ,内 核 会 选择 默认 的 优 
先 级 DEFAULT_MESSAGE_LOGLEVEL。 如 果 printk 的 优先 级 比 当前 终端 的 优先 等 级 
高 ,消息 就 会 打印 到 控制 台 上 。 因 此 如 果 想 要 在 控制 台 看 到 printkO 〇 函数 的 输出 信息 ,可 以 
设置 一 下 printk() 函 数 的 优先 级 ,使 其 比 当前 终端 的 优先 等 级 高 ,就 可 以 向 终端 上 输出 信息 
了 。 如 果 syslogd 和 klogd 守护 进程 在 运行 , 则 不 管 是 否 向 控制 台 输出 ,消息 都 会 被 追加 进 / 
var/log/messages 文件 中 。 所 以 可 以 打开 /var/log/messages 这 个 文件 来 查看 输出 的 信息 ， 
或 者 可 以 直接 通过 dmesg 命令 来 查看 输出 的 信息 。 第 一 个 程序 没有 对 printk() 函 数 的 优先 
级 进行 设置 ,因此 在 控制 台 看 不 到 输出 的 信息 。 后 面 的 两 个 示例 程序 对 printk O 函数 的 优 
先 级 进行 了 设置 ,使 其 可 以 向 控制 台 输 出 信息 。 

(2) 程序 中 的 init_module() 函数 

int init module() 

£ 


nfho.hook =hook func; /hook function 
nfho.hocknum  -—NF IP FRE FOUTING; //the hock point 
nfho.pf =F INET; 

nfho.priority =NF IP FRI FIRST; //priority 

nf register hook(&nfho); / [register the hook 
return 0; 


) 


nfho 是 一 个 nf_hook_ops 结构 的 变量 ,该 函数 首先 对 nfho 的 一 些 成 员 赋 值 ,其 中 hook 
func 就 是 程序 中 定义 的 钧 子 函 数 ,NF_IP_PRE_ROUTING 指定 了 该 钩子 函数 所 在 的 检 
查 点 ,PF_INET 指定 协议 族 ,NF_IP_PRI_FIRST 指定 了 该 钩子 函数 的 优先 级 。 最 后 调用 
nf register hook 函数 向 内 核 注册 钧 子 函 数 。 

(3) 程序 中 的 cleanup_module() 函 数 ( 代 码 如 下 ) 
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void cleanup module () 
t 

nf unregister hock(snfho); 
I 


该 函数 调用 nf. unregister hook RK HIR E £8 13: JUE BG £43 f PR C , 
(4) Makefile 文件 (代码 如 下 ) 


cbj-m:= filter prot.o 

KDIR:- /lib/modiles/S (shell unae- r) /build 
ED: $ (shell ped) 

all: 

$ (MAKE)- C Š (KDIR) SUBDIRS- $ (PWD) modules 
clean: 

$ (MAKE)- C $ (KDIR) SUBDIRS= $ (PWD) clean 


代码 经 过 编译 后 会 生成 一 个 filter. prot. ko 文件 ,然后 就 可 以 通过 insmod filter. prot. 
ko 来 加 载 该 模块 ,通过 rmmod filter. prot. ko 来 印 载 该 模块 。 加 载 该 模块 之 前 ,其 他 主机 可 
以 ping 通 本 机 ,但 是 加 载 该 模块 之 后 其 他 主机 将 ping 不 通 本 机 。 因 为 所 有 的 ping 本 机 的 
ICMP 包 都 被 直接 丢弃 了 。 测 试 如 下 。 用 某 台 主机 一 直 ping 本 机 ,然后 通过 dmesg 命令 查 
看 日 志 消 息 ,可 以 看 到 内 核 日 志 消 息 中 有 如 下 内 容 ( 注 意 , 所 有 的 ICMP 包 均 被 丢弃 了 )，: 


[270614.435983] ICMP Packet:DFOP 
[270619.923230] ICMP Packet:DFOP 
[270627.964276] TCP Packet:ACCEPT 
[270627.989874] TCP Packet:ACCEPT 
[270632.174701] UDP Packet:ACCEPT 


2. 基于 源 IP 地 址 过 滤 的 示例 程序 


该 程序 要 实现 的 功能 就 是 对 源 IP 地 址 为 “192. 168. 1. 27” 的 数据 报 全 部 丢弃 。 程 序 的 
钩子 函数 定义 如 下 : 


unsigned int hock func (unsigned int hooknum, struct sk buff * * skb, const struct net device * in, const 
struct net device * out, int (* okfn) (struct sk buffx )) 
{ 
struct sk buff * pskb- * skb; 
if((pskb- » nh.iph-» saddr)== in aton ("192.168.1.27")) 
{ 
printk("« 0> "A Packet fram 192.168.1.1:TFOPn"); 
return NF IROP; 


Teturn NF AXEPT; 
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} 


和 上 一 个 程序 的 主要 区 别 在 于 在 该 钧 子 函 数 中 ,程序 首先 根据 sk_buff 指针 定位 数据 
报 的 IP 头 ,然后 根据 IP 头 的 源 IP 地 址 过 滤 数 据 报 。 注 意 到 程序 中 用 in_aton() 这 个 函数 
将 一 个 字符 串 形式 的 IP 转换 为 一 个 长 整 型 的 值 。 该 函数 是 inet. addrO 函数 在 内 核 中 的 替 
代 函 数 。 因 为 是 内 核 编 程 ,所 以 程序 不 能 直接 使 用 C 语言 库 函 数 中 的 inet. addrO 函数 。 

Makefile 文件 和 前 一 个 程序 类 似 , 编 译 并 加 载 到 内 核 后 进行 如 下 测试 。 尝 试 从 IP 地 址 
为 “192. 168. 1. 27” WJ EHL ping 本 机 ,telnet 本 机 或 者 通过 ssh 登陆 本 机 。 可 以 看 到 无 论 通 
过 什么 方式 都 连 不 上 本 机 ,因为 所 有 来 自 192. 168. 1. 27 的 数据 报 都 直接 被 丢弃 了 。 通 过 
dmesg 命令 查看 日 志 可 以 看 到 日 志 中 有 如 下 内 容 : 


[270805.756903] A Packet. fram 192.168.1.27:DFOP 
[270814.551829] A Packet. fram 192.168.1.27:DFOP 
[270819.723446] A Packet. fram 192.168.1.27:DFOP 
[270825.205202] A Packet. fram 192.168.1.27:DFOP 
[270838.713382] A Packet. fram 192.168.1.27:DFOP 


3. 基于 TCP 通信 目的 端口 过 滤 的 示例 程序 


该 程序 要 实现 的 功能 就 是 对 于 目的 端口 地 址 为 23" 的 TCP 包 全 部 丢弃 。 程 序 的 钩子 
函数 定义 如 下 : 


unsigned int hook func(unsigned int hooknum, struct sk buff * * skb, const struct net device * in, const 
struct net device* out, int (* okfn) (struct sk buff*)) 
Li 
struct sk buff * pekb- * skb; 
struct tcphdr * thdr- (struct tcrhdr * ) (pskb- > datat (pskb- > nh.iph- > ihl* 4)); 
if((psko- > mh. iph- » protocol) !- IPFFOTO TCP) 
t 
printk("« 0» ""Not A TCP Packet: ACCEPIA n") ; 
return NF ACCEPT; 


if(thdr- > dest== in pton("23")) 

t 
printk ("< 0» "A TCP Packet FORT 23:DFOPAn") ; 
return NF ” DROP; 


return NF ACCEPT; 


在 该 函数 中 ,程序 首先 根据 协议 类 型 判断 是 否 是 TCP 包 , 然 后 通过 sk buff 的 IP 头 计 
算出 TCP 头 部 位 置 并 定义 一 个 TCP 头 部 指针 指向 该 位 置 。 最 后 通过 该 TCP 头 部 指针 取 
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得 该 TCP 包 的 目的 端口 进行 过 滤 。 
因为 TCP 包头 部 存 的 端口 是 网 络 序 ,所 以 在 进行 判断 时 ,需要 将 23” 这 个 数值 也 转换 
成 网 络 序 。 转 换 函 数 如 下 : 


unsigned short in pton(oonst char* port str) 
t 
unsigned short p,i; 
for(p-0,i-O;port str[i]«- '9'&&port str[i]»- '0';it+ ) 
t 
p-p*10* (port. str[i]- '0'); 
} 
i= (p>> 8)& 0x0000ff; 
i |= (p«« 8)& 0x00ff00; 
retum (i); 
} 
编译 并 加 载 到 内 核 后 进行 如 下 测试 。 尝 试 从 其 他 主机 telnet 本 机 ,查看 日 志 可 以 看 到 
通过 23 端口 进来 的 数据 报 都 被 直接 丢弃 掉 了 。 
[270977.326040]A TCP Packet. FORT 23:DFROP 
[270980.327817]A TCP Packet. FORT 23:DFROP 
[270986.223673]A TCP Packet FORT 23:DROP 


11.4. 扩展 与 提高 


11.4.1 iptables 命令 


IPTables 组 件 可 以 通过 iptables 命令 在 用 户 空间 对 netfilter 内 核 模块 中 表 的 规则 进行 
插入 、 删 除 和 修改 。 发 行 较 早 的 Linux 版 本 可 能 没有 将 该 组 件 包含 在 内 ,需要 从 netfilter. 
org 官方 网 站 上 下 载 该 工具 另行 安装 。 

通过 iptables 命令 ,读者 可 以 很 方便 地 设 定 规则 从 而 快速 地 定制 自己 的 防火 墙 ,这 些 规 
则 存储 在 内 核 空 间 的 表 中 。 每 条 规则 都 有 自己 的 目标 ,它们 告诉 内 核 如 何 对 数据 报 进 行 处 
理 。 如 果 某 个 数据 报 与 规则 匹配 , 则 可 以 使 用 目标 ACCEPT 允许 该 数据 报 通过 ,或 者 使 用 
目标 REJECT 或 DROP 来 阻塞 或 者 丢弃 数据 报 。 


11.4.2 iptables 命令 参数 详解 
语法 : 
iptables[- t table]oammand[metch] [- j target/jump]options 


table 参数 用 来 指定 规则 表 , 内 核 默 认 内 建 3 个 table: filter、nat 和 mangle, 当 参数 没有 
指定 某 个 规则 表 时 ,默认 是 对 filter 表 进 行 操作 。 其 中 各 个 表 的 作用 可 以 参考 前 面 小 节 的 
介绍 。 
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(1) command 指定 操作 的 命令 ,如 插入 ,删除 规则 等 。 
(2) match 设 定 匹 配 参 数 。 
(3) target 指定 对 数据 报 的 处 理 动作 (例如 : DROP, LOG, ACCEPT 或 REJECT), 


1. 常用 命令 

(1) 命令 -A,-append 

示例 : 

iptables — A INEUT 

说 明 : 新 增 规则 到 某 个 规则 链 中 ,该 规则 将 会 成 为 规则 链 中 的 最 后 一 条 规则 。 当 源 地 
址 或 目的 地 址 以 名 字 而 不 是 TP 地 址 的 形式 出 现时 , 若 这 些 名 字 可 以 被 解析 为 多 个 地 址 , 则 
这 条 规则 会 和 所 有 可 用 的 地 址 结合 。 


(2) 命令 -D, 一 delete 

示例 : 

iptables - D INEUT - - dport 80 - j DROP 
或 者 

iptables - D INEUT 1 

说 明 : 从 指定 链 中 删除 规则 。 有 两 种 方法 指定 要 删除 的 规则 : 一 是 输入 完整 的 规则 ， 
另 一 个 是 指定 规则 在 所 选 链 中 的 序号 (每 条 链 的 规则 都 各 自从 1 被 编号 ) 。 

(3) 命令 -R, 一 replace 

示例 : 

iptables -R INEUT 1 - s 192.168.1.1 - j IFOP 

说 明 : 在 指定 链 中 指定 的 行 上 (每 条 链 的 规则 都 各 自从 1 被 编号 ) 替 换 规则 ,规则 被 取 
代 后 并 不 会 改变 顺序 。 它 主要 的 用 处 是 试验 不 同 的 规则 。 当 源 地 址 或 目的 地 址 以 名 字 而 不 
是 IP 地 址 的 形式 出 现时 , 若 这 些 名 字 可 以 被 解析 为 多 个 地 址 , 则 这 条 command 会 失败 。 

(4) fir 4-T,—insert 

示例 : 

iptables - I INEUT 1 - — dport 80 -j ACCEPT 

说 明 : 插入 一 条 规则 ,原本 该 位 置 上 的 规则 将 会 往 后 移动 一 个 顺 位 。 如 果 序号 为 1, 则 
规则 会 被 插入 链 的 头 部 。 

(5) 命令 -L, 一 list 

示例 : 

iptables —L INPUT 

说 明 : 列 出 某 规则 链 中 的 所 有 规则 。 如 果 没 有 指定 链 , 则 显示 指定 表 中 的 所 有 链 。 如 
果 什 么 都 没有 指定 ,就 显示 默认 表 中 的 所 有 的 链 。 精 确 输 出 会 受 其 他 参数 影响 ,如 -n 和 
-v 等 参数 ,后面 会 介绍 这 些 参数 。 
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(6) 命令 -F, —flush 

示例 : 

iptables -F INPUT 

说 明 : 清空 指定 的 链 。 如 果 没 有 指定 链 , 则 清空 指定 表 中 的 所 有 链 。 如 果 什么 都 没有 
指定 ,就 清空 默认 表 中 所 有 的 链 。 

(7) 命令 -Z, —zero 

示例 : 

iptables - Z INEUT 

说 明 : 将 指定 链 的 计数 器 归 零 。 数 据 报 计数 器 用 来 统计 同一 数据 报 出 现 的 次 数 ,是 过 
滤 阻 断 式 攻击 非常 重要 的 工具 。 

(8) 命令 -N, —new-chain 

示例 : 

iptables -N allowed 

说 明 : 根据 用 户 指定 的 名 字 建 立新 的 链 。 注 意 ,新 建 链 的 名 字 不 能 和 已 有 的 链 target 同名 。 

(9) 命令 -X, —delete-chain 

示例 : 

iptables -X allowed 

说 明 : 删除 指定 的 用 户 自 定义 链 。 这 个 链 必须 没有 被 引用 ,如 果 被 引用 ,在 删除 之 前 必 
须 删除 或 者 蔡 换 与 之 有 关 的 规则 。 如 果 没 有 给 出 参数 ,这 条 命令 将 会 删除 默认 表 中 所 有 非 
内 建 的 链 。 

(10) 命令 -P, —policy 

示例 : 

iptables - P INEUT [FOP 

说 明 : 对 指定 链 设置 默认 策略 。 所 有 不 符合 规则 的 包 都 会 被 强制 使 用 这 个 策略 。 注 意 
只 有 内 建 的 链 才 可 以 使 用 规则 。 

(1D 命令 -E, —rename-chain 

示例 : 

iptables — E allowed disallowed 

说 明 : 对 自 定 义 的 链 进行 重 命名 ,原来 的 名 字 在 前 ,新 名 字 在 后 。 注 意 : 这 仅仅 只 是 改 
变 链 的 名 字 , 而 对 整个 表 的 结构 .功能 没有 任何 影响 。 

2. 常用 数据 报 匹 配 参 数 


(1) 参数 -p, —protocol 
示例 : 


iptables —A INEUT -p tcp. 


281 


282 


网 络 安全 高 级 软件 编程 技术 


说 明 : 匹配 通信 协议 类 型 ,可 以 使 用 ! 运 算 符 进行 反 向 匹配 ,例如 : -pltcp ,意思 是 匹配 
除 tep 以 外 的 其 他 协议 类 型 ,例如 udp \icmp 等 。 如 果 要 匹配 所 有 类 型 , 则 可 以 使 用 all 关键 
字 来 进行 匹配 ,例如 : iptables -A INPUT -p all, 

(2) 参数 -s, 一 src, 一 source 


示例 : 
iptables - A INEUT - s 192.168.1.1 


说 明 : 匹配 数据 报 的 源 IP 地 址 ,可 以 匹配 单个 IP 地 址 或 某 网 段 的 IP 地 址 ,匹配 网 段 
IP 地 址 时 用 数字 来 表示 屏蔽 ,例如 :-s 192. 168. 0. 0/24 ,匹配 IP 时 可 以 使 用 ! 运 算 符 进行 反 
向 匹配 ,例如 : -s!192. 168. 0. 0/24。 

G) 参数 -d, —dst. -destination 

示例 : 

iptables - A INEUT -d 192.168.1.1 

说 明 : 匹配 数据 报 的 目的 IP 地 址 ,具体 使 用 方式 与 -s 参数 的 使 用 方式 相同 。 

(4) 参数 -i, 一 in-interface 

示例 : 

iptables - A INEUT - i ethO 

说 明 : 匹配 数据 报 进入 的 网 卡 ,可 以 使 用 通 配 字符 十 实现 多 个 网 卡 的 匹配 ,例如 : -i 
eth 十 表示 所 有 的 ethernet 网 卡 ,也 以 使 用 ! 运 算 符 进行 反 向 匹配 ,例如 : -ileth0。 

(5) 参数 -o, —-out-interface 

示例 : 

iptables - A FORWARD — o eth0 


说 明 : 匹配 数据 报 出 去 的 网 卡 , 具 体 使 用 方式 和 -i 参数 的 使 用 方式 相同 。 

(6) 参数 一 sport ,一 source-port 

示例 : 

iptables - A INEUT -p tcp - - sport 22 

说 明 : 匹配 数据 报 的 源 端口 号 ,可 以 匹配 单一 端口 号 或 者 指定 的 某 个 范围 内 所 有 的 端 
口号 ,例如 : 一 sport 22:80, 表 示 从 22 到 80 之 间 的 端口 号 都 匹配 ,如 果 要 匹配 不 连续 的 多 个 
端口 号 , 则 必须 使 用 -multiport 参数 ,后 面 将 会 介绍 。 匹 配 端口 号 时 ,同样 可 以 使 用 ! 运 算 子 
进行 反 向 匹配 。 

(7) 参数 一 dport ,一 destination-port 

示例 : 

iptables —A INEUT -p tcp - -dport 22 

说 明 : 匹配 数据 报 的 目的 端口 号 ,具体 使 用 方式 与 -sport 参数 的 使 用 方式 相同 。 


(8) 参数 一 tcp -flags 
示例 : 
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iptables -p tcp - - to - flags SYN,FIN,ACK SYN 

说 明 : 匹配 TCP 数据 报 的 标志 位 ,参数 分 为 两 部 分 ,第 一 部 分 列 出 想 匹 配 的 标志 位 ,第 
二 部 分 则 列 出 需要 设置 的 标志 位 。TCP 包 标志 位 包括 : SYNCH), ACKO) FIN Gi 
束 )、RST( 重 设 ) 和 URG( 紧 急 ) 等 。 除 此 之 外 还 可 以 使 用 关键 词 ALL 和 NONE 进行 匹配 。 
同样 也 可 以 使 用 ! 运 算 符 进行 反 向 匹配 。 

(9) 参数 -syn 

示例 : 

iptables - p tcp - syn 

说 明 : 匹配 用 于 连接 的 TCP 数据 报 , 其 作用 相当 于 iptables-p tep —tcp-flags SYN. 
FIN.ACK SYN, 

(10) 参数 -m multiport -source -port 

示例 : 

iptables - A INEUT -p tcp - mmiltiport - - source- port 22,53,80,110 

说 明 : 匹配 不 连续 的 多 个 源 端口 号 ,一 次 最 多 可 以 列 15 个 端口 号 ,可 以 使 用 ! 运 算 符 进 
行 反 向 匹配 。 

(11) 参数 -m multiport --destination-port 

示例 : 

iptables - A INEUT - p tcp — m multiport - destination- port 22,53,80,110 

说 明 : 匹配 不 连续 的 多 个 目的 端口 号 ,具体 使 用 方式 和 -m multiport —source-port 参数 
的 使 用 方式 相同 。 

(12) 参数 -m multiport -port 

示例 : 

iptables A INEUT -p tcp -mmiltiport - - port 22,53,80,110 

说 明 : 匹配 源 端 口 和 目的 端口 号 都 相同 的 数据 报 , 设 定 方式 同上 ,具体 使 用 方式 和 -m 
multiport --source-port 参数 的 使 用 方式 相同 。 值 得 注意 的 是 源 端口 和 目的 端口 号 都 相同 的 数 
据 报 才 符 合 匹配 条 件 。 例 如 源 端口 号 为 80 ,目的 端口 号 为 110, 这 种 数据 报 就 不 符合 条 件 。 

(13) 参数 --icmp-type 

示例 : 

iptables - A INEUT — p icmp - - iam - type 8 

说 明 : 匹配 ICMP 的 类 型 编号 ,可 以 使 用 代码 或 数字 编号 进行 匹配 。 可 以 输入 iptables 
-p iemp 一 help 查看 有 哪些 代码 可 用 。 

(14) 参数 -m limit -limit 

示例 : 

iptables — A INPUT -m limit -- limit 3/second 


说 明 : 匹配 某 段 时 间 内 数据 报 的 平均 流量 ,上 面 的 示例 是 用 来 匹配 : 每 秒 平均 流量 是 
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否 超过 3 个 封包 。 此 外 还 可 以 按 每 分 钟 、 每 小 时 或 每 天 平均 一 次 ,默认 值 为 每 小 时 平均 一 
次 ,所 对 应 的 参数 分 别 是 : /minute、/hour、/day。 除 了 进行 数据 报 数量 的 匹配 外 , 设 定 这 个 
参数 也 会 在 条 件 达 成 时 ,暂停 对 数据 报 的 匹配 ,从 而 避免 恶意 攻击 者 使 用 洪水 攻击 ,导致 服 
务 被 阻 断 。 

(15) 参数 -limitrburst 

示例 : 

iptables - A INEUT -m limit - - limit -burst 5 

说 明 : 匹配 瞬间 大 量 数据 报 的 数量 ,上 面 示例 是 用 来 匹配 一 次 同时 涌 入 的 数据 报 是 否 
超过 5 个 ,超过 此 上 限 的 数据 报 将 被 直接 丢弃 。 

(16) 参数 -m mac —mac-source 

示例 : 

iptables - A INEUT -m mac - - mac - source a3:3d:ee:6a:4c:01 


说 明 : 匹配 数据 报 的 源 MAC 地 址 。 

(17) 参数 -m owner 一 uid-owner 

示例 : 

iptables - A OUTPUT -m owner - - uid - owner 500 

说 明 : 匹配 来 自 本 机 的 数据 报 是 否 为 某 特定 使 用 者 产生 的 ,这 样 可 以 避免 服务 器 使 用 
root 或 其 他 身份 将 敏感 数据 传 出 。 

(18) 参数 -m owner 一 gid-owner 

示例 : 

iptables - A OUTPUT -m owner - - gid - owner 0 

说 明 , 匹配 来 自 本 机 的 数据 报 是 否 为 某 特 定 用 户 组 产生 的 ,使 用 方式 和 -m owner 一 uid- 
owner 参数 类 似 。 

(19) 参数 -m owner --pid-owner 

示例 : 

iptables — A OUTPUT -m owner - - pid - owner 78 

说 明 ; 匹配 来 自 本 机 的 数据 报 是 否 为 某 特定 行程 产生 的 ,使 用 方式 和 -m owner-uid- 
owner 参数 类 似 。 

(20) 参数 -m owner --sid-owner 

示例 : 

iptables — A OUTPUT — m owner - - sid- owner 100 

说 明 : 匹配 来 自 本 机 的 数据 报 是 否 为 某 特定 连接 (Session ID) 的 响应 数据 报 , 使 用 方式 
和 -m owner 一 uid-owner 参数 类 似 。 

(21) 参数 -m state-state 

示例 : 
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iptables — A INPUT -m state - — state RELATED, ESTABLISHED 


说 明 : 匹配 会 话 状态 ,会 话 状态 共有 4 种 : INVALID, ESTABLISHED, NEW 和 
RELATED, INVALID 表示 该 数据 报 的 会 话 ID (Session ID) 无 法 辨识 或 不 正确 。 
ESTABLISHED 表示 该 数据 报 属于 某 个 已 经 建立 的 连接 。NEW 表示 该 数据 报 想 要 发 起 一 
个 连接 。RELATED 表示 该 数据 报 是 属于 某 个 已 经 建立 的 连接 的 。 


3. 常用 的 处 理 动作 


参数 -j 用 来 指定 要 进行 的 处 理 动作 ,常用 的 处 理 动作 包括 : ACCEPT, REJECT, 
DROP、REDIRECT、MASQUERADE、LOG、DNAT、SNAT、MIRROR、QUEUE、 
RETURN 及 MARK 等 。 常 用 的 处 理 动作 如 下 : 

(1) 目标 ACCEPT; 接收 数据 报 ,进行 完 该 处 理 后 ,将 不 再 去 匹配 其 他 的 规则 ,而 是 直 
接 跳 往 下 一 条 规则 链 。 

(2) 目标 REJECT: 拦截 该 数据 报 , 并 回 送 数据 报 通 知 对 方 ,可 以 选择 回 送 ICMP port- 
unreachable, ICMP echo-reply 或 是 tcp-reset 这 几 种 类 型 的 数据 报 来 通知 对 方 , 进 行 完 该 处 
理 后 ,将 不 再 匹配 其 他 的 则 ,而 直接 中 断 过 滤 程 序 。 

(3) 目标 DROP; 直接 丢弃 数据 报 , 进 行 完 该 处 理 动作 后 ,将 不 再 匹配 其 他 的 规则 ,而 直 
接 中 断 过 滤 程 序 。 

(4) 目标 REDIRECT: 将 数据 报 重 定向 到 另 一 个 端口 ,进行 完 该 处 理 动作 后 ,还 会 继续 
匹配 其 他 的 规则 。 

(5) 目标 MASQUERADE: 改写 数据 报 的 源 IP 地 址 为 防火 墙 网 卡 的 IP 地 址 ,可 以 指 
定 port 对 应 的 范围 ,进行 完 该 处 理 动作 后 ,直接 跳 往 下 一 条 规则 链 。 该 功能 与 SNAT 略 有 
不 同 , 当 进行 IP 伪装 时 ,不 需要 指定 要 伪装 成 哪个 IP, 系 统 会 自动 获取 网 卡 的 IP 地 址 作为 
伪装 IP。 

(6) 目标 LOG: 将 数据 报 的 相关 讯息 记录 在 文件 /var/log 中 。 进 行 完 该 处 理 动作 后 ， 
将 会 继续 匹配 其 他 的 规则 。 

C) 目标 SNAT: 改写 数据 报 的 源 IP 地 址 为 某 特定 IP 或 IP 范围 ,可 以 指定 port 对 应 
的 范围 ,进行 完 该 处 理 动作 后 ,将 直接 跳 往 下 一 条 规则 。 

(8) 目标 DNAT: 改写 数据 报 的 目的 TP 地 址 为 某 特定 IP 或 IP 范围 ,可 以 指定 port 对 
应 的 范围 ,进行 完 此 处 理 动作 后 ,将 会 直接 跳 往 下 一 条 规则 链 。 

(9) 目标 MIRROR: 对 调 源 IP 地 址 与 目的 IP 地 址 ,然后 将 该 数据 报 回 送 ,进行 完 该 处 
理 动作 后 ,将 会 中 断 过 滤 程 序 。 

(10) 目标 QUEUE: 中 断 过 滤 程 序 , 将 数据 报 放 入 队列 , 交 由 其 他 程序 处 理 。 

AD 目标 RETURN; 结束 当前 规则 链 中 的 过 滤 程 序 , 返 回 主 规则 链 继续 过 滤 。 

(12) 目标 MARK; 数据 报 标 标记 ,以 便 给 后 续 过 滤 的 条 件 提供 判断 的 依据 ,进行 完 该 
处 理 动作 后 ,将 会 继续 匹配 其 他 的 规则 。 


4. 常用 选项 


(1) 选项 -v, 一 verbose( 详 细 的 ) 
可 用 此 选项 的 命令 是 : 
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-- list,- - append,- - insert,- - delete,- - replace 

说 明 : 该 选项 使 输出 详细 化 , 常 与 -list 命令 一 起 使 用 。 与 -list 连用 时 ,输出 中 包括 网 
络 接口 的 地 址 、 规 则 的 选项 .TOS 掩 码 、 字 节 和 人 包 计 数 器 。 如 果 -v #l—append,-insert, 
一 delete 或 -replace 连用 ,iptables 会 输出 规则 插入 或 者 删除 等 过 程 的 详细 信息 。 

(2) 选项 -x, --exact( 精 确 的 ) 

可 用 此 选项 的 命令 是 : 

-- list 

说 明 : 使 -list 输出 的 计数 器 显示 准确 的 数值 ,而 不 用 KM, G 等 估 值 。 该 选项 只 能 和 
一 list 连用 。 

(3) 选项 -n, numeric Ek fH ) 

可 用 此 选项 的 命令 是 : 

--1list 

说 明 : 使 输出 的 IP 地 址 和 端口 以 数值 的 形式 显示 ,而 不 是 默认 的 名 字 , 比 如 主机 名 、 网 
络 名 等 。 该 选项 也 只 能 和 --list 连用 。 

(4) 选项 -line-numbers 

可 用 此 选项 的 命令 是 : 

--1list 

说 明 : 显示 出 每 条 规则 在 相应 链 中 的 序号 。 该 选项 也 只 能 和 --list 连用 。 
11.4.3 设计 防火 墙 


根据 11. 4. 2 节 讨 论 的 关于 Netfilter 和 IPTables 的 知识 ,利用 iptables 命令 对 
Netfilter 进行 设置 ,从 而 实现 一 个 简单 的 防火 墙 。 

本 节 要 求实 现 的 防火 墙 功 能 包括 : 

(1) 所 有 来 自 192. 168. 1.0—192. 168. 1. 254 这 个 IP 网 段 的 数据 报 都 设置 为 接受 。 

(2) 对 于 202. 113. 25. 0 一 202. 113. 25. 254 这 个 网 段 的 IP 数据 报 ,只 允许 来 自 202. 
113. 25. 174 这 个 IP 地 址 的 数据 报 通 过 ,其 余 的 都 丢弃 。 

(3) 对 202. 113. 16. 000—202. 113. 16. 254 网 段 的 IP 的 数据 报 都 设 定 为 接受 。 

(4) 拒绝 其 他 主机 通过 ssh 和 telnet 连接 本 机 ,即将 通过 22 和 23 端口 连接 本 机 的 数据 
报 全 部 丢弃 。 

(5) 允许 通过 FTP 连接 本 机 ,即将 通过 20 和 21 端口 连接 本 机 的 数据 报 设置 为 通过 。 


1. 清除 所 有 规则 
首先 清除 filter 表 中 的 规则 (代码 如 下 ) 。 


iptables -t filter -F // 清 空 filter 表 中 的 所 有 链 
iptables - t filter -X // 清 空 filter 表 中 所 有 用 户 的 自 定义 链 
iptables -t filter - Z // 把 所 有 链 的 所 有 计数 器 归 零 
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也 可 以 不 指定 filter 表 , 当 没有 指定 对 某 个 表 进行 操作 时 ,默认 对 filter 表 进 行 操作 。 
2. 定义 默认 的 策略 


清除 filter 表 中 所 有 规则 之 后 . 接 下 来 就 是 对 filter 表 中 的 链 设置 默认 策略 。 当 某 个 包 
与 所 有 设 定 的 规则 都 不 匹配 时 将 会 被 强制 使 用 这 个 策略 。 注 意 只 有 内 建 的 链 才 可 以 设置 默 
认 策 略 ,用 户 自 定义 的 链 不 能 设置 默认 策略 。 这 里 将 默认 的 策略 都 设置 为 接受 (代码 如 下 ) 。 

iptables -t filter -P INPUT ACCEPT 

iptables - t filter -P OUTPUT ACCEPT 

iptables -t filter ~ P FOFWARD ACCEPT 


3. 添加 规则 

按照 本 节 要 求实 现 的 防火 墙 功能 来 添加 自 定义 的 规则 。 

(1) 所 有 来 自 192. 168. 1.0— 192. 168. 1. 254 这 个 IP 网 段 的 数据 报 都 设置 为 接受 ( 代 
码 如 下 )。 

iptables - A INEUT — i eth0 - s 192.168.1.0/24 — j AOCEPT 

(2) 来 自 202. 113. 25. 174 这 个 IP 地 址 的 数据 报 设置 为 接受 (代码 如 下 ) 。 

iptables - A INEUT - i eth0 - s 202.113.25.174 - j ACCEPT 

(3) 对 于 202. 113. 25. 0 — 202. 113. 25. 254 这 个 网 段 的 IP 数据 报 设置 为 拒绝 (代码 
如 下 ) 。 

iptables - A INEUT - i eth0 - s 202.113.25.0/24 - j DROP 

第 2 条 规则 必须 在 第 3 规则 之 前 ,否则 第 2 条 规则 将 不 会 起 任何 作用 。 因 为 当 一 个 来 
自 202. 113. 25. 174 的 数据 报 进来 时 ,如 果 第 3 条 规则 在 第 2 条 规则 之 前 , 按 顺 序 匹 配 原 则 ， 
则 先 匹配 第 3 条 规则 ,将 该 数据 报 DROP 掉 了 ,而 Netfilter 在 进行 完 DROP 这 个 动作 之 后 
将 会 直接 中 断 过 滤 程 序 ,不 会 再 继续 匹配 其 他 的 规则 。 

(4) 对 202. 113. 16. 000 一 202. 113. 16. 254 网 段 的 IP 的 数据 报 都 设 定 为 通过 (代码 
WT. 

iptables — A INFUT - i eth0 - s 202.113.16.0/24 — j ACCEPT 

G) 对 于 通过 22 和 23 端口 连接 本 机 的 数据 报 设置 为 丢弃 (代码 如 下 )。 

iptables — A INEUT - i eth0 - p TCP - - dport 22 - j IFOP 

iptables — A INEUT - i eth0 - p TCP - — dport 23 - j IFOP 

可 以 将 以 上 两 条 命令 合并 成 一 条 (代码 如 下 ) : 

iptables -A INEUT - i eth0 - p TCP - — dport 22: 23 - j DEOP 

或 者 写成 (代码 如 下 ) : 


iptables -A INPUT -ieth0 — p TCP -m multiport - - dport 22,23 — j IFOP 
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(6) 对 于 通过 20 和 21 端口 连接 本 机 的 数据 报 设置 为 通过 (代码 如 下 ) 。 

iptables — A INPUT -ieth0 — p TCP - - dport 20 — j ACCEPT 

iptables — A INPUT ~ i eth0 — p TCP — — dport 21 — j ACCEPT 

同样 也 可 以 将 以 上 两 条 命令 合并 成 一 条 命令 (代码 如 下 ) : 

iptables- A INPUT- i eth0- p TCP- - dport 20: 21- j ACCEPT 

或 者 写成 (代码 如 下 ) : 

iptables- A INPUT- i ethÜ- p TCP- m miltiport- - dport 20,21- j ACCEPT 

至 此 本 节 要 求实 现 的 防火 墙 的 规则 都 已 经 全 部 设置 完成 。 可 以 通过 命令 iptablesL-n 
来 查看 各 个 链 上 设置 的 规则 。 以 上 这 些 命令 的 执行 都 需要 root 权限 。 该 防火 墙 功能 比较 
简单 ,只 是 作为 示例 来 演示 如 何 使 用 iptables 命令 ,读者 完全 可 以 根据 自己 的 需要 来 定制 更 
为 实用 和 功能 更 强大 的 防火 墙 。 


DRA 
Linux 内 核 网 络 协 议 栈 加 固 


12.1 编程 训练 目的 与 要 求 


Linux 是 一 种 开发 源 代 码 的 操作 系统 ,程序 开发 人 员 能 够 通过 修改 或 升级 其 源 代 码 对 
系统 进行 加 固 。 本 章 通过 加 固 Linux 网 络 协议 栈 程序 ,改变 Linux 内 核对 孤立 TCP SYN 
数据 包 的 处 理 方式 ,提升 系统 对 TCP SYN 拒绝 服务 攻击 的 防御 能 力 。 

本 章 训 练 的 主要 目的 是 : 

(1) 理解 TCP 连接 的 建立 过 程 以 及 拒绝 服务 式 攻击 的 基本 原理 与 方法 。 

(2) 结合 Linux 内 核 源 代码 的 代码 分 析 , 理 解 Linux 网 络 协议 栈 的 实现 原理 。 

(3) 掌握 对 TCP SYN Flood 的 防御 手段 以 及 对 Linux 内 核 进 行 扩 展开 发 的 方法 。 

(4) 了 解 Linux TCP cookie 防火 墙 的 工作 原理 。 

本 章 的 训练 要 求 如 下 : 

(1) 扩展 Linux 原 有 内 核 功能 .使 系统 能 够 在 遭受 TCP SYN 拒绝 服务 式 攻 击 后 ,丢弃 
TCP SYN 数据 包 , 从 而 降低 拒绝 服务 式 攻击 造成 的 危害 。 

(2) 在 丢弃 新 的 TCP SYN 数据 包 的 同时 ,不 能 影响 系统 已 经 建立 的 TCP 连接 。 

(3) 基于 Linux 2.6 及 其 以 上 版 本 内 核 代 码 进行 开发 。 


12.2 相关 背景 知识 


12.2.1 拒绝 服务 式 攻击 


拒绝 服务 式 攻击 DoS 是 一 种 简单 有 效 的 进攻 方式 。DoS 耗费 攻击 目标 的 系统 资源 ,使 
攻击 目标 无 法 正常 提供 服务 ,从 而 达到 攻击 的 目的 。 一 般 攻 击 者 可 以 利用 协议 漏洞 ,模拟 众 
多 的 服务 请 求 等 手段 ,使 目的 主机 忙于 处 理 各 种 虚假 服务 请 求 , 而 无 法 提供 正常 服务 ,其 中 
TCP SYN 洪水 攻击 就 是 一 种 利用 TCP 协议 漏洞 进行 拒绝 服务 攻击 的 典型 方法 。 


1. TCP SYN 攻击 原理 


TCP 建立 连接 需要 通过 一 个 三 次 握手 过 程 建立 起 来 ,所 谓 三 次 握手 ,是 指 TCP 协议 在 
发 送 数据 前 ,TCP 的 客户 端 和 服务 端 通过 3 个 数据 包 ,确认 双方 节点 的 状态 ,进而 建立 连接 
的 过 程 ,具体 步骤 如 下 。 

COD 在 建立 连接 前 ,服务 端 打开 特定 端口 ,进行 监听 ,客服 端 主动 发 送 TCP 数据 包 到 服 
务 端 主机 的 该 端口 上 ,并 将 该 数据 包 的 “SYN"” 标 志 位 置 位 ,并 初始 化 发 送 序列 号 为 N; 
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(2) 服务 端 收 到 该 数据 包 后 ,发送 回复 数据 包 ,该 包 的 接收 序列 号 为 N 十 1, 并 同时 置 位 
“SYN” 和 “ACK”, 初 始 化 该 包 的 发 送 序列 号 为 M; 

(3) 客户 端 收 到 该 数据 包 后 ,再 次 发 送 该 数据 包 的 回复 数据 包 , 并 置 位 *ACK”, 此 外 ,其 
接受 序列 号 为 M 十 1, 至 此 ,一 个 TCP 连接 建立 完成 。 

三 次 握手 的 过 程 如 图 12-1 所 示 。 

如 果 Server 端 在 发 出 SYN + ACK 数据 包 后 未 能 收 到 ACK 数据 包 , 就 会 认为 该 
SYN 十 ACK 数据 包 丢失 ,进而 重新 发 送 该 包 , 直 到 重复 若干 次 后 才 确 定 终止 尝试 (如 图 12-2 
所 示 ) 。 


Server Client Server Client 
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图 12-1 三 次 握手 的 过 程 示意 图 图 12-2 ACK 包 丢弃 情况 示意 图 


2. TCP SYN 攻击 试验 


本 试验 共 需 要 3 台 主 机 ,假设 其 分 别 为 主机 A、 主 机 B 和 主机 C,3 台 主 机 处 于 同一 局 域 网 
内 。 在 本 实验 中 ,主机 A 的 他 地 址 为 172.20.22.27; 主 机 B 的 他 地 址 为 172.20.22.37, 操 作 
系统 不 限 ;主机 C 的 IP 地 址 不 限 ,其 上 运行 Sniffer 程序 ,在 本 书 的 试验 中 使 用 Iris。 为 简单 
起 见 ,主机 B 和 主机 C 的 角色 可 由 同一 台 主机 扮演 。 


试验 步骤 如 下 : 
(1) 在 主机 C 安装 Sniffer 程序 ,并 进行 监听 。 为 避免 干扰 ,可 设置 其 过 滤器 使 其 只 监 
控 主机 A.B 之 间 的 TCP 数据 包 。 


(2) 在 主机 A 开放 端口 445 ,并 进行 监听 。 
G) 在 主机 B EEM Telnet 协议 尝试 连接 该 端口 ,并 在 主机 C 上 使 用 Sniffer 软件 观 


测 网 络 数据 包 的 收发 情况 。 
图 12-3 记录 了 一 次 完整 的 TCP 连接 的 数据 包 通 信 过 程 。 
[MAC source addr | MAC dest. addr | Frame | Protocol | Addr. IP sre |Mdár. IP dest | Port src | Port dest | SEQ LACK 
00:18:88:00-... 0010.09:33... IP  TCP-MICROSOFT-IS (...5.) 172.20.22.37 172.20.22.27 1254 445 1949739865 0 
00:10:00:33-... 00:18:8B:00... IP  TCP-MICROSOFT-IS (K S.) 172.20.22.27 172.20.22.37 4 1254 3834677579 1949739866 
00:18:88:00-... 00:10.09:33... IP  TCP-MICROSOFT-IS (A...) 172.20.22.37 10.202.237. 1254 — < 1949739666 3834877580 


图 12-3 一 次 完整 的 TCP 连接 过 程 示意 图 
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(4) 在 主机 A 发 送 一 个 孤立 的 TCP SYN 数据 包 , 观 察 主机 B 的 反应 ,结果 如 图 12-4 
所 示 。 可 见 , 主 机 B 在 发 送 SYN 十 ACK 回应 数据 包 后 .如 果 在 一 定时 间 内 未 能 收 到 ACK 
数据 包 , 则 会 继续 重新 发 送 SYN+ ACK 回应 包 若 干 次 .直到 收 到 ACK 数据 包 或 者 超时 为 
止 。 超 时 时 间 不 同 ,操作 系 统 的 设置 也 不 同 。 


[Time Qum sana) WAC source ss 
13 39.02 981 CD-18:98.00. 


图 12-4 主机 B 响应 数据 包 示 意图 


如 果 主 机 A 发 送 一 个 “孤立 的 "SYN 数据 包 , 而 主机 B 需 要 发 送 若 干 个 SYN 十 ACK 数据 
包 , 直 至 超时 为 止 。 同 时 ,主机 B 还 需要 记录 主机 A 发 送 数 据 包 的 相关 信息 ,维护 重新 发 送 定 
时 器 以 及 超时 定时 器 ,执行 相应 的 判断 逻辑 等 ,所 消耗 的 系统 资源 远 远 大 于 主机 A 发 送 数据 
包 的 消耗 。 那 么 ,如 果 主 机 B 同时 收 到 大 量 的 SYN 数据 包 , 其 系统 资源 必然 会 被 大 量 消耗 , 进 
而 无 法 继续 维护 正常 的 系统 服务 ,这 就 是 TCP SYN Flood 攻击 的 基本 原理 与 过 程 。 


12.2.2 僵尸 网 络 的 基本 概念 


1999 年 底 , 伴 随 着 分 布 式 拒绝 服务 攻击 (DDoS) 的 出 现 , 高 端 网 站 也 开始 受到 严重 威 
胁 , 与 早期 的 拒绝 服务 式 攻击 由 单 台 攻击 主机 发 起 , 单 兵 作战 相 比较 ,分 布 式 拒绝 服务 攻击 
的 实现 是 借助 若干 台 被 植 人 攻击 守护 进程 的 攻击 主机 同时 发 起 的 “集团 作战 ?行为 ,在 这 种 
多 对 一 的 较量 中 ,被 攻击 者 遭受 的 压力 是 巨大 的 ,即使 是 高 带宽 ,高 配置 的 网 络 服务 器 也 难 
以 幸免 。 目 前 大 部 分 分 布 式 拒绝 服务 攻击 都 是 通过 僵尸 网 络 (botnet) 完 成 的 。 攻 击 者 将 攻 
击 程序 安装 在 僵尸 网 络 中 的 各 个 被 控 主 机 上 ;在 选 定 攻击 目标 后 ,通过 僵尸 网 络 对 全 部 被 控 
主机 的 攻击 程序 发 送 命令 ,使 全 部 攻击 程序 在 同一 时 间 内 对 指定 目标 进行 攻击 ,从 而 剧烈 消 
耗 目的 主机 的 网 络 带宽 和 运算 资源 。 

分 布 式 拒绝 服务 攻击 具有 破坏 力 大 、 隐 蔽 性 强 及 防御 困难 等 特点 。 只 要 攻击 者 的 僵尸 
网 络 规模 足够 大 ,即便 每 台 被 控 主 机 只 发 出 普通 服务 请 求 , 也 能 大 量 消耗 被 攻击 主机 的 系统 
资源 ,堵塞 其 网 络 带宽 ,从 而 达到 拒绝 服务 的 目的 。 


1. 僵尸 网 络 的 主要 特点 


僵尸 网 络 控制 者 (botmaster) 出 于 恶意 目的 ,传播 僵尸 程序 控制 大 量 主机 ,并 通过 一 对 
多 的 命令 与 控制 信道 连接 被 控 主 机 组 成 的 网 络 。 伪 尸 网 络 具有 以 下 3 个 主要 特点 : 

(1) 可 控 性 

僵尸 网 络 必须 是 一 个 可 控制 的 网 络 ,并 随 着 僵尸 网 络 控制 程序 的 不 断 传播 而 不 断 产 生 
新 的 被 控 主 机 添加 到 该 网 络 中 来 。 

(2) 传播 性 

僵尸 程序 通过 自动 传播 扩大 感染 范围 ,进而 扩大 僵尸 网 络 的 规模 。 

(3) 危害 性 

僵尸 网 络 拥有 者 可 以 控制 全 部 感染 僵尸 程序 的 主机 ,执行 特定 的 恶意 行为 ,例如 对 目标 
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网 站 进行 分 布 式 拒绝 服务 攻击 ,发送 大 量 的 垃圾 邮件 等 ,由 于 僵尸 网 络 的 一 对 多 的 控制 关 
系 ,使 得 攻击 者 能 够 以 极 低 的 代价 高 效 地 控制 大 量 的 资源 为 其 服务 ,这 也 是 僵尸 网 络 攻击 模 
式 近 年 来 受到 攻击 者 青睐 的 根本 原因 。 

僵尸 程序 主要 有 以 下 5 种 传播 形式 : 

(1) 攻击 漏洞 

攻击 者 主动 攻击 系统 漏洞 获得 访问 权 ,并 执行 僵尸 程序 注入 代码 。 

(2) 邮件 携带 

据 相关 统计 资料 显示 ,7% 的 垃圾 邮件 中 含有 恶意 程序 ,这 也 是 伪 尸 网 络 传播 的 重要 
条 件 。 

(3) 即时 通信 

很 多 僵尸 程序 可 以 通过 即时 消息 进行 传播 。2005 年 ,性 感 鸡 (Worm MSNLoveme) 爆 
发 就 是 通过 MSN 消息 传播 的 。 

(4) 恶意 网 站 脚本 

攻击 者 在 有 漏洞 的 服务 器 中 植 人 木马 或 者 是 直接 建立 一 个 恶意 服务 器 ,访问 了 带 有 恶 
意 代 码 网 页 后 ,主机 就 很 容易 感染 上 恶意 代码 。 

(5) 伪装 软件 

很 多 僵尸 程序 被 夹杂 在 P2P 共享 文件 .局域网 内 共享 文件 .免费 软件 及 共享 软件 中 ,一 
旦 下 载 并 且 打开 了 这 些 文件 ,主机 就 会 立即 感染 僵尸 程 序 。 


2. 僵尸 网 络 的 发 展 历史 与 危害 


僵尸 网 络 是 随 着 自动 智能 程序 的 应 用 而 逐渐 发 展 起 来 的 。 在 早期 的 IRC 聊天 网 络 中 ,有 
一 些 服务 是 重复 出 现 的 ,如 防止 频道 被 滥用 、 管 理 权限 .记录 频道 事件 等 一 系列 功能 都 可 以 由 
管理 者 编写 的 智能 程序 完成 。 于 是 在 1993 年 ,在 IRC 聊天 网 络 中 出 现 了 Bot 工具 一 一 
Eggdrop, 这 是 第 一 个 自动 机 器 人 程序 ,能 够 帮助 用 户 方便 地 使 用 IRC 聊天 网 络 。 这 种 自动 程 
序 的 功能 是 良性 的 ,是 出 于 服务 的 目的 。 然 而 攻击 者 利用 该 设计 思路 ,编写 出 带 有 恶意 目的 的 
自动 工具 ,开始 对 大 量 的 受害 主机 进行 控制 ,利用 它们 的 资源 达到 自己 的 恶意 目的 。 

20 世纪 90 年 代 末 , 随 着 分 布 式 拒绝 服务 攻击 概念 的 成 熟 ,出 现 了 大 量 分 布 式 拒绝 服务 
攻击 工具 (如 TFN、TFN2K 和 Torino) ,攻击 者 利用 这 些 工具 控制 大 量 被 感染 主机 ,发 动 分 
布 式 拒 绝 服务 攻击 。 而 这 些 被 控 主 机 从 一 定 意义 上 来 说 已 经 具有 了 僵尸 网 络 的 雏形 。 

1999 年 ,在 第 八 届 DEFCON 年 会 上 发 布 的 SubSeven 2. 1 版 开始 使 用 IRC 协议 构建 攻 
击 者 对 僵尸 主机 的 控制 信道 ,也 成 为 第 一 个 真正 意义 上 的 僵尸 程序 。 随 后 基于 IRC 协议 的 
僵尸 网 络 程序 大 量 出 现 , 如 GTBot、Sdbot 等 ,使 得 基于 IRC 协议 的 僵尸 网 络 成 为 主流 。 

2003 年 之 后 , 随 着 蠕虫 技术 的 不 断 成 熟 , 僵 尸 网 络 的 传播 开始 使 用 蠕虫 的 主动 传播 技 
术 , 从 而 实现 快速 构建 大 规模 的 僵尸 网 络 , 例 如 2004 年 爆发 的 Agobot/Gaobot 和 rBot/ 
Spybot, 

同年 出 现 的 Phatbot, 在 Agobot 的 基础 上 使 用 P2P 结构 构建 控制 信道 ,增加 了 僵尸 网 
络 的 可 扩张 性 及 鲁 棒 性 ,使 得 僵尸 网 络 的 防御 更 加 困难 。2007 年 出 现 了 基于 P2P 协议 的 
Peacomm ,通过 结构 化 Kademlia 协议 对 僵尸 网 络 进行 控制 ,其 受害 者 数 以 千 万 计 。 

随 着 僵尸 网 络 的 泛滥 ,分 布 式 拒绝 服务 攻击 也 开始 借助 僵尸 网 络 发 展 起 来 。2005 年 ， 
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中 国 唐山 某 黑 客 控制 了 6 万 台中 国 的 计算 机 对 某 音 乐 网 站 进行 分 布 式 拒绝 服务 攻击 ,造成 
该 网 站 不 论 将 服务 器 转移 到 台湾 还 是 美国 都 无 法 正常 提供 服务 ,损失 达 上 百 万 元 人 民 币 。 


3. 实例 分 析 : 通过 僵尸 网 络 进行 DoS 攻击 


Tribe Flood Network 2000 (TFN2K) 是 由 德国 黑客 Mixter 编写 的 ,其 主要 由 两 部 分 组 
成 : 在 主 控 端 主机 上 的 客户 端 程序 和 在 被 控 主 机 上 的 守护 进程 程序 。 

(1) 主 控 端 主机 上 的 客户 端 程序 主要 负责 控制 部 分 被 控 主机 ,接收 僵尸 网 络 所 有 者 的 
命令 ,并 将 该 命令 转发 给 其 被 控 主 机 上 。 

(2) 被 控 主机 上 的 守护 进程 程序 主要 负责 监听 、 接 收 主 控 端 发 出 的 命令 并 执行 。 

(3) TFN2K 组 成 结构 如 图 12-5 所 示 。 


图 12-5 TFN2K 组 成 结构 示意 图 


TFN2K 攻击 的 过 程 是 : 攻击 开始 时 ,攻击 者 首先 给 主 控 端 主机 发 送 命令 ,然后 主 控 端 
通过 随机 使 用 自 定义 的 TCP、UDP 或 者 ICMP 数据 包 向 被 控 主 机 发 送 命令 。 除 了 ICMP 总 
是 使 用 ICMP_ECHOREPLY 类 型 数据 包 之 外 , 主 控 端 与 被 控 主 机 之 间 数 据 包 的 头 信息 也 
是 随机 的 。 此 外 ,为 了 增加 隐蔽 性 ,TFN2K 的 被 控 主 机 守护 程序 是 完全 沉默 的 , 它 不 会 对 
接收 到 的 命令 有 任何 回应 。 主 控 端 重复 发 送 每 一 条 命令 20 次 ,以 确保 守护 程序 能 接收 到 。 
被 控 主 机 在 收 到 命令 后 开始 对 目的 主机 进行 攻击 ,攻击 方法 包括 TCP/SYN、UDP 及 ICMP 
PING 数据 包 洪 水 等 。 

此 外 ,TFN2K 还 在 程序 隐蔽 性 方面 进行 了 其 他 优化 ,增加 了 发 现 难度 。 这 主要 表现 在 
以 下 几 个 方面 : 

(1) 在 该 僵尸 网 络 传输 的 命令 数据 包 中 混杂 若干 个 目的 TP 地 址 随机 的 伪造 数据 包 。 

(2) 所 有 命令 数据 包 都 利用 CAST-256 算法 (RFC 2612) 进 行 加 密 。 加 密 Key 在 程序 
编译 时 定义 ,并 作为 TFN2K 客户 端 程序 的 口令 。 
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(3) 进行 拒绝 服务 式 攻击 的 数据 包 载荷 为 随机 数据 ,无 规律 可 循 , 且 守护 进程 名 也 会 在 
系统 中 随机 更 改 , 极 大 增加 了 防御 与 检测 的 难度 。 


12.2.3 Linux 内 核 网 络 协议 栈 相关 代码 分 析 


本 节 结 合 对 Linux 内 核 的 TCP 连接 建立 过 程 代码 分 析 , 说 明 实施 SYN 拒绝 服务 攻击 
的 过 程 ,分 析 DDoS 攻击 对 Linux 系统 的 危害 。 


1. 正常 TCP 连接 建立 系统 行为 


(D Linux 内 核 通过 定义 静态 全 局 变量 tcp. protocol 注册 对 TCP 协议 的 处 理 函 数 tcp_ 
v4_rcv() ,本 代码 片段 摘自 文件 af inet. c 中 。 


static struct net protocol tcp protocol- { 
-handler- tcp v4 rcv, 
„err handler- tcp v4 err, 
.gso send check-tcp v4 gso send check, 
-gso segunt- to tso segment, 
.no policy- 4; 
J 
(2) 函数 tcp_v4_rcv() 在 文件 tcp_ipv4.c 中 实现 ,摘录 代码 片段 如 下 : 


int tcp v4 rcv(struct sk buff * skb) 
t 
/人 错误 判断 代码 省 略 
sk= inet lookup(&tcp hashinfo, iph- > saddr, th- > scurce, 
iph-»daddr, th- > dest, inet iif (skb)); 
if (!sk) 
goto no tcp socket; 
process: 
if (sk-»sk state-- TCP TIME WAIT) 
goto do time wait; 
if (Ixfmmd policy check(sk, XFRM POLICY IN, skb)) 
goto discard and relse; 
nf reset(skb); 
if (sk filter(sk, skb)) 
goto discard and relse; 
skb- > dev- NULL; 
kh lock sock nested(sk); 
ret-0; 
if (!sock owned by user(sk)) ( 
# ifdef CONFTG NET MA 
struct tœ sock* tp=tcp sk(sk); 
if (Itp-» uocpy.dma chan && tp- > uoxpy.pinned list) 
tp-»uccpy.dm chan-get softnet cma () ; 
if (tp-» uccopy.dma chan) 
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retetep vd do rcv(sk, skb); 
else 
fendif 


if (!tcp pregueue(sk, skb)) 
retetcp vd do rcv(sk, skb); 
H 
} else 
Sk add backlog(sk, skb); 
bh unlock sock(sk); 
Sock put (sk); 
return ret; 
// 错 误 处 理 代码 省 略 
i 


(3) 如 果 没 有 任何 错误 发 生 ,程序 执行 流程 转 和 人 函数 tcp_v4_do_rcv() 中 。 摘 录 该 函数 


代码 如 下 : 


int tcp v4 do rcv(struct sock* sk, struct sk buff* skb) 
t 
struct sock* rsk; 
# ifdef CONFTG TCP MD5SIG 
if (tcp v4 inbound md5 hash(sk, skb)) 
goto discard; 
fendif 
if (sk- > sk state-- TCP ESTRBLISHED)( / [Fast path 
TCP CHECK TIMER (sk) ; 
if (tcp rcv established(sk, skb, tcp hdr (skb), skb-»1en)) ( 
rsk- sk; 
goto reset; 
H 
TP CHK TIMER (sk) ; 
return 0; 
1 
if (skb->1en<tcp hdrlen (skb) || top_ checksum complete (skb)) 
goto csum err; 
if (sk-»sk state==TCP LISTEN) { 
struct sock* nsketap vé hnd req(sk, skb); 
if (Insk) 
goto discard; 
if (nsk !=sk) ( 
if (tcp child process(sk, nsk, skb)) ( 
rsk-nsk; 
goto reset; 
) 
return 0; 
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} 
TCP CHECK TIMER (5k) ; 
if (tœ rcv state prooess (sk, skb, tcp hdr(skb), skb-»1en)) ( 
rsk-sk; 
goto reset; 
H 
TP CHE-K TIMER (Sk) ; 
return 0; 
reset: 
tcp v4 send reset(rsk, skb); 
discard: 
kfree skb(sko); 
retum 0; 
csm err: 
TCP INC STATS BH(ICP MIB INEFRS); 
goto discard; 
) 


(4) 当 该 socket 处 于 listen 状态 时 ,假设 其 收 到 client 发 出 的 第 一 个 SYN 数据 包 , 则 其 
将 调用 函数 tcp_v4_hnd_req () 处 理 该 SYN 数据 包 。 摘 录 tcp_v4_hnd_req O A URE 
如 下 : 


static struct sock* tcp v4 hnd req(struct sock* sk, struct sk buffx skb) 
t 
struct tcphdr* th= tap hdr (skb); 
const struct iphdr* iph- ip bdr(sko); 
struct sock* nsk; 
struct request sock**prev; 
//Find possible connection requests. 
struct request sock* regeinet csk search reg(sk, &nrev, th- 5 source, 
dph-5 sadi, iph- > dedit); 
if (reg) 
return tcp check req(sk, skb, reg, prev); 
nskeinst 1ookup established (top hashinfo, iph- > saddr, th-» source, 
dph-5 decr, th- » dest, inet iif(skb)); 
if (nsk) ( 
if (nsk-»sk state !- TCP TIME WAIT) ( 
Eh lock sock(nsk); 
return nsk; 
H 
inet twsk put(inet twsk(nsk)); 
return NULL; 
H 
# ifdef QONFIG SYN QOCKIES 
if (Ith- » rst && !th-» syn && th- » ack) 
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sk-oookie v4 check(sk, skb, &(IECB(skb)- > cpt)); 


retum sk; 
) 


在 这 段 代 码 中 ,函数 inet_csk_search_req() 用 于 查找 当前 处 于 半 连 接 状态 的 socket, PR 
数 _inet_lookup_established() 用 于 查找 当前 已 经 成 功 建立 的 socket, 由 于 此 时 收 到 的 是 第 
一 个 SYN 数据 包 , 所 以 这 两 个 函数 不 会 查询 到 任何 结果 ,程序 会 一 直 顺 利 执行 到 最 后 一 行 
返回 。 

(5) 回 到 tcp_v4_do_rcv() 函 数 代码 中 ,由 于 tcp_v4_hnd_req O ROA E sk, 所 以 在 函 
数 tcp_v4_do_rcv() 不 会 满足 后 续 的 两 个 if 条 件 , 而 是 继续 执行 ,进入 函数 tcp_rcv_state_ 
process() 中 。 

函数 tcp_rcv_state_process() 实 现 了 TCP 除了 ESTABLISHED fll TIME WAIT 其 他 
状态 下 接收 数据 处 理 的 过 程 ,代码 片段 如 下 : 


int tcp rcv state Process (struct sock* sk, struct sk buff* skb, 
struct tcphdr * th, unsigned len) 
t 
struct top sock* tp=tcp sk(sk); 
struct inet connection sock* icsk-inet csk(sk); 
int queued- 0; 
tp-»rx opt.saw tstamp- 0; 
switch (sk- > sk state) ( 
case TCP CIOSE: 
goto discard; 
case TCP LISTEN: 
if (th- >ack) 
retum 1; 
if (th- > rst) 
goto discard; 
if (th >syn) ( 
if (icsk-»icsk af qos-» conn request (sk, skb)« 0) 
return 1; 
kfree skb(skb); 
retum 0; 
š 
goto discard; 
// 忽 略 处 理 其 他 情况 代码 若干 
) 


(6) 由 于 此 时 该 TCP 包头 只 有 SYN 位 被 置 位 ,所 以 函数 满足 “if (th->syn)” 的 条 件 ， 
调用 的 conn_request() 是 一 个 函数 指针 ,指向 函数 tcp_v4_conn_request()。 摘 录 该 函数 代 
码 如 下 : 


int tcp v4 com request(struct sock* sk, struct sk buff* sko) 


-297 


298. — 网络 安全 高 级 软件 编程 技术 


struct inet request sock* ireg; 
struct tcp options received tmp cpt; 
struct request sock* reg; 
. be3) sackir= ip hdr(skb)- > sacr; 
. be32 daddr- ip hdr (skb)— > daddr; 
. u isn- TCP SKB CB(skb)- » when; 
struct dst entry* dst- NULL; 
# ifdef OCNFIG SYN OXCKIES 
int want cookie-0; 
felse 
# define want cookie 0 //Axgh, why doesn't goc optimize this : 
fendif 
//Never answer. to SYNs send to broadcast or multicast 
if (((struct rtable* )skb-»dst)-» rt flags & 
(RICF BFOADCAST | RICE MULTICAST)) 
goto drop; 
if (inet csk reqsk queue is full(sk) && !isn) ( 
# ifdef CONFIG SYN COOKIES 
if (sysctl tcp syncookies) ( 
want cookie- 1; 
} else 
fendif 
goto drop; 
H 
if (sk acceptq is full(sk) && inet csk rek queue young(sk) >1) 
goto drop; 
reg-regsk alloc(&tcp request sock ops); 
if (treg) 
goto drop; 
# ifdef CONFTG TCP MD5SIG 
tcp rsk(req) ->af specific- &tcp request sock ipv4 ops; 
fendif 
tcp clear options (stmp cpt); 
tmp opt.mss clamp- 536; 
tmp opt.user mss=tcp sk(sk)- > rx gpt.user mss; 
tcp parse cptions(skb, &ump cpt, 0); 
if (want cookie) ( 
tcp clear options(stmp cpt); 
tmp cpt.saw tstamp- 0; 
H 
if (um opt.saw tstemp && !tmp opt.rcv tsval) ( 
tmp got.saw tstemp- 0; 
tmp opt.tstemp ok-0; 
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mp œt.tstap ok-tmp opt.saw tstamp; 
tcp cpenreq init(reg, &ump opt, skb); 
if (security inet conn request(sk, skb, reg)) 
goto drop and free; 
ireg-inet rsk(reg); 
ireq-» loc addr- daddr; 
ireq-» mt acddr- saddr; 
ireq- > opt= top v4 save cptions(sk, skb); 
if (!want. cookie) 
TCP EON create reguest (reg, tcp hdr (skb)) ; 
if (want cookie) ( 
# ifdef CONFIG SYN CDOKIES 
syn flood waming(skb); 
#endif 
isn-ocokie v4 init sequenoe (sk, skb, &req- >mss); 
} else if (!isn) ( 
// 省 略 SiNocokie 相 关 代 码 
} 
tcp rsk(req)-» snt isn-isn; 
+£ (top vd send synack(sk, reg, dst) 
goto drop and free; 
if (want cookie) ( 
regk free(reg); 
} else { 
inet csk regsk queue hash acHfak reg, TCP TIMEDUT INIT); 
) 
retum 0; 
drop and free: 
regk free(reg); 
drop: 
retum 0; 
) 


该 函数 在 对 潜在 的 错误 进行 详细 检测 后 ,进入 函数 top. v4. send. synack O JÑ SYN + 
ACK 数据 包 的 发 送 ,并 使 用 函数 inet_csk_reqsk_queue_hash_add() 将 该 socket 填 人 相关 
的 系统 队列 中 。 至 此 ,三 次 握手 已 经 完成 了 两 次 。 

(7) 如 果 Client 能 够 正常 收 到 该 SYN 十 ACK 数据 包 , 并 发 送 ACK 数据 包 完 成 握手 过 
程 ,在 Server 端 ,接收 到 该 数据 包 后 系统 会 再 一 次 进入 tcp_v4_do_rcv() 函 数 中 。 

由 于 此 时 该 socket 的 状态 依然 是 TCP_LISTEN, 故 其 依然 会 进入 这 语句 块 “if (sk-> 
sk_state 二 二 TCP_LISTEN)” 中 。 摘 录 代码 如 下 : 


//tcp v4_dp_rcv() 函 数 代 码 片 段 

if (sk- > sk state=='CP LISTEN) ( 
struct sock* nsketap vé ind req(sk, skb); 
if (Insk) 
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goto discard; 
if (nsk t- sk) { 
if (tcp child process (sk, nsk, skb)) { 
rsk-nsk; 
goto reset; 
j 
return 0; 


} 


(8) 函数 tcp_v4_hnd_req() 将 会 被 第 2 次 调用 。 

由 于 刚刚 在 tcp. v4. conn. request O AUP # 33 E" inet esk. reqsk queue hash add 
(sk, req, TCP. TIMEOUT INIT) "将 此 半 连 接 socket 的 信息 存 人 系统 协议 栈 哈 希 表 中 。 
所 以 在 函数 tcp_v4_hnd_req() 中 ,函数 inet_csk_search_req() 会 找到 相应 的 socket 信息 ,所 
以 函数 tcp_check_req() 将 会 得 到 调用 。 摘 录 代 码 如 下 : 


// 函 数 to v4 hnd reg () 代 码 片段 
struct request sock* regeinst csk search req(sk, qorev, th-> source, 
dph- > sadir, iph-» daddr); 
if (reg) 
retum tcp check req(sk, skb, reg, prev); 

(9) 在 函数 tcp_check_req() 中 ,系统 确认 该 数据 包 是 否 为 所 需要 的 ACK 数据 包 , 并 检 
测 其 他 潜在 的 错误 ,最 后 使 用 函数 syn_recv_sock() 创 建新 的 socket, 通 过 函数 inet_csk_ 
reqsk_queue_add() 将 该 socket 加 入 到 系统 已 建立 的 socket 表 中 ,最 后 返回 该 socket 的 句 
柄 “child”。 摘录 代 码 如 下 : 


struct sock* tcp check req(struct sock* sk,struct sk buff* skb, 
struct request sock* reg, 
struct request sock** prev) 


const struct tcphdr* th= tcp hdr (skb); 
_ be32 flg= tap flag word(th) & (ICP FIAG RST|TCP FIAG SYN|TCP FIAG ACK); 
int paws reject=0; 
struct tcp options received tmp cpt; 
struct sock* child; 
// 省 略 部 分 错误 处 理 代 码 
if (tp opt.saw tstemp && 
lafter(TCP SKB CB(skb)- > seg, tcp rsk(reg)- > rcv isnt1)) 
reg-»ts recent-tmp gpt.rcv tsval; 
// 省 略 检测 TcP 属 性 位 潜在 错误 代码 
childeinet csk (sk) -> icsk af qs- > syn recv sock(sk, skb, reg, NIL); 
if (child-- NULL) 
goto listen overflow; 
// 省 略 校 验 和 处 理 代码 
inet csk recpk queue unlink(sk, reg, prev); 
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inet csk regsk queue removed(sk, reg); 
inet csk regsk queue add(sk, reg, child); 
retum child; 
listen overflow: 
if (Isysctl tcp abort on overflow) ( 
inet rsk(reg)- »acked-1; 
return NULL; 
) 
embryonic reset: 
NET INC STATS BH(LINUX MIB EMERYONICRSIS) ; 
if (!(flg & TCP FIAG RST)) 
req-»rsk ops-» send reset(sk, skb); 
inet csk regsk queue drop(sk, reg, prev); 
return NULL; 
k 


(10) 回 到 函数 tcp_v4_do_rcv() 中 ,这 时 判断 条 件 * if (nsk! 二 sk)”, 会 得 到 满足 ,程序 
进入 tcp_child_process() 函 数 中 继续 执行 。 摘 录 代码 如 下 : 


int tcp child process (struct sock* parent, struct sock* child, 
struct sk buff* skb) 


int ret-0; 

int state- child- »sk state; 

if (!sock owned by user(child)) ( 
ret-tcp rcv state process (child, skb, tcp hdr (skb), 

Skb-»1len); 
/ hakeup parent, send SIGIO 
if (state-— TCP SYN RECV && child- »sk state !— state) 
parent- >sk data ready(parent, 0); 

} else { 
//mas,it is possible again, because we do lookup 
//in main socket hash table and lock cn listening 
//socket. does not protect us more. 
Sk add backlog(child, skb); 

} 

Eh unlock sock(child); 

Sock put (child); 

return ret; 

) 


本 函数 再 次 调用 tcp_rcv_state_process() 函 数 ,改变 新 建立 的 socket 的 状态 为 
ESTABLISHED, 然 后 程序 返回 到 函数 tcp_v4_do_rcv() 中 ,执行 *return 0” 返 回调 用 。 


2. 遭受 SYN 攻击 后 的 系统 行为 
以 上 描述 的 是 Linux 正常 建立 一 个 新 的 TCP 连接 的 完整 过 程 。 但 是 ,如 果 Client 在 发 
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送 完 第 一 个 SYN ,并 收 到 Server 的 SYN+ ACK 包 后 ,不 发 送 ACK 数据 包 , 则 系统 将 循环 
尝试 发 送 SYN 十 ACK 包 若 干 次 , 才 放弃 本 次 连接 的 建立 。 下 面 进 行 代码 分 析 。 

(1) 在 Server 发 送 完 SYN 十 ACK 数据 包 后 ,系统 会 调用 inet csk. reqsk queue hash addO PR 
数 将 该 socket 存 人 系统 中 半 连 接 套 接 字 哈 希 表 。 摘 录 代 码 如 下 : 


void iret csk reqsk queue hash add(struct sock* sk, struct request sock* reg, 
unsigned long timeout) 
t 
struct inet connection sock* icsk-inet csk(sk); 
struct listen sock* lopt= icsk- > icsk acoept queue.listen opt; 
const u32 h= inet synq hash(inet rsk(reg)- > mt addr, inet rsk (req) = > mmt port, 
lopt-»hash rnd, lopt-» nr table entries); 


reqsk queue hash req(&icsk-» icsk accept queue, h, reg, timeout); 
inet csk reqsk queue added(sk, timeout); 
} 


(2) 该 函数 调用 inet_csk_reqsk_queue_added() 函数 完成 后 续 工 作 ,摘录 代码 如 下 : 


static inline void inet csk reqsk queue adHed(strmuct sock* sk, 
const unsigned long timeout) 

{ 

if (regsk queue added(&inet csk(sk)- > icsk acoept queue)==0) 
inet csk reset keepalive timer(sk, timeout); 

) 

(3) 可 见 , 在 将 该 socket 存 人 系统 中 半 连 接 套 接 字 哈 希 表 的 过 程 中 ,系统 会 使 用 
inet_csk_reset_keepalive_timer( ) PR CJ Ù% socket 添加 一 个 Timer 用 以 在 指定 时 间 内 未 
收 到 Client 的 ACK 数据 包 时 重 发 SYN 十 ACK 数据 包 。 该 Timer 会 在 收 到 所 需要 的 
ACK 后 在 tcp. check. reqCO PR #% rp] H] inet. esk. reqsk. queue. removed( sk. req) 删除 , 摘 
录 代 码 如 下 : 


static inline void inet csk reqsk queue removed(struct sock* sk, 
struct request sock* reg) 
t 
if (regsk queue removed(&inet csk(sk)- > icsk accept queue, reg)-— 0) 
inet csk delete keepalive timer(sk); 

) 

(4) 该 Timer 对 应 的 处 理 函 数 为 tcp. synack. timer O ,该 函数 会 周期 性 地 重新 发 送 
SYN-ACK 数据 包 , 直 到 收 到 ACK 或 者 超时 ,Timer 删除 为 止 。 

(5) 利用 Linux 系统 的 这 种 特点 ,攻击 者 就 可 以 像 某 个 Linux Server 开放 的 端口 发 送 
大 量 扳 立 的 SYN 数据 包 , 并 伪造 数据 包 源 地 址 ,从 而 使 系统 资源 在 维护 若干 连接 的 Timer 
和 若干 次 重 发 中 消耗 列 尽 。 可 见 ,SYN 拒绝 服务 攻击 可 以 给 Linux 系统 造成 严重 影响 。 


3. Linux 编译 内 核 方法 
由 于 本 章程 序 实例 需要 对 系统 内 核 进行 重新 编译 ,所 以 需要 介绍 Linux 重新 编译 内 核 
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的 基本 方法 。 

重新 编译 Linux 内 核 比 较 简单 。 第 一 步 ,首先 获得 内 核 源 代码 ,一 般 存储 到 /usr/src/ 
中 。 内 核 源 代码 可 以 在 安装 系统 时 安装 ,也 可 以 从 官方 网 站 上 自行 下 载 。 该 网 站 的 网 址 是 : 
http: //www. kernel. org/。 

相关 源 代码 准备 好 后 ,需要 使 用 make mrproper 命令 检测 代码 ,确定 其 完整 性 ;并 使 用 
命令 make menuconfig 根据 自身 需要 对 内 核 进行 配置 。 

上 述 准 备 工作 完成 后 ,可 以 依次 使 用 下 面 的 命令 对 内 核 进行 编译 ,整个 过 程 大 约 需 要 
一 个 小 时 。 

CD 首先 需要 安装 一 些 工 具 , 包 括 编译 工具 、 安 装配 置 库 文件 .系统 配置 工具 以 及 模块 
安装 工具 。 


# apt- get install build- essential 
#apt- œt install libncurses5- dev 
#apt- œt install kernel- package. 
#apt- get install initramfs- tools 
#apt- get install mdule- init- tools 


(2) 安装 后 ,将 内 核 代 码 解 压缩 到 */usr/src/linux” 中 ,然后 进行 配置 。 为 了 简便 起 见 ， 
可 以 直接 将 配置 文件 “/boot/config-linux2. 6. XX" 4 Ul y *. config”, 然后 就 可 以 使 用 
“make menuconfig” 进 行 配置 了 。 配 置 界面 如 图 12-6 所 示 。 


Linux Kernet Configuration 
Arrow keys navigate the menu. «Enter» selects submenus ---». 
Highlighted letters are hotkeys. Pressing «Y» includes, «N» excludes, 
«M» modularizes features. Press «Esc»«Esc» to exit, «?» for Help, </> 
for Search. Legend: [*] built-in [ ] excluded <M> module <> 


File systems ---> 

[*] Instrumentation Support (NEW) ---» 
Kernel hacking ---» 
Security options ---» 

-*- Cryptographic API ---» 

[*] virtualization ---» 
Library routines ---» 

1 


Save an Alternate Configuration File 


< Exit > «Help» 


12-6 内核 配置 界面 图 


(3) 可 以 直接 选择 “load an alternate configuration file" ,直接 加 载 刚刚 复制 的 文件 。 然 
后 就 可 以 使 用 命令 行进 行 编译 了 。 编 译 分 为 以 下 4 个 步骤 : 

(D make: 编译 内 核 模块 。 

@ make install; 安装 内 核 。 

@ make modules: 开始 编译 外 挂 模块 。 

(O make modules install; 安装 编译 完成 的 模块 。 

(4) 安装 完成 后 ,使 用 mkinitramfs 命令 添加 引导 信息 ,最 后 在 编辑 “/boot/grub/ 
menu. lst” 中 添加 相应 的 启动 选项 即 可 。 在 重新 启动 系统 后 即 可 看 到 相关 的 内 核 选项 。 
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12.3 实例 编程 练习 


12.3.1 编程 练习 要 求 


通过 编程 增强 Linux 对 TCP SYN 攻击 的 抵抗 能 力 ,要 求 程 序 可 以 按 需 求 过 滤 TCP 
SYN 数据 包 ,并 且 不 能 影响 已 存在 的 TCP 连接 。 由 于 SYN 攻击 是 通过 大 量 消 耗 目 标 系统 
资源 实现 攻击 的 ,所 以 要 求 程序 实现 上 述 功能 占用 尽量 少 的 系统 资源 。 

为 了 降低 编程 复杂 度 ,程序 设计 不 需要 实现 交互 界面 等 其 他 模块 ,只 需要 实现 基本 的 
TCP SYN 数据 包 过 滤 功 能 即 可 。 


12.3.2 编程 训练 设计 与 分 析 


由 于 Linux 实现 网 络 协议 栈 是 参考 TCP/IP 的 分 层 模型 分 层 实现 的 ,数据 包 在 各 层 之 
间 传递 也 需要 消耗 系统 资源 。 所 以 要 消耗 最 少 的 系统 资源 对 TCP SYN 数据 包 进行 过 滤 ， 
必须 将 程序 功能 模块 插入 系统 数据 链 路 层 协 议 ,在 数据 链 路 层 实现 对 指定 数据 包 的 丢弃 ,从 
而 以 最 小 的 系统 资源 代价 实现 对 TCP SYN 数据 包 的 过 滤 。 

所 以 ,需要 首先 定位 Linux 处 理 数 据 链 路 层 数据 包 的 系统 函数 ,然后 对 该 函数 进行 扩 
展 ,增加 TCP SYN Flood 攻击 判别 逻辑 ,进而 实现 在 数据 链 路 层 丢弃 数据 包 。 

在 编写 具体 代码 之 前 ,必须 首先 了 解 Linux 系统 内 核 协 议 栈 中 数据 链 路 层 数据 包 的 处 
理 过 程 。 


1. Linux 数据 链 路 层 接收 数据 包 的 过 程 


Linux 对 链 路 数据 包 的 处 理 分 为 NON-NAPI 和 NAPI 两 种 方式 ,NAPI 是 Linux 上 采 
用 的 一 种 提高 网 络 处 理 效率 的 技术 , 它 的 核心 概念 是 不 采用 中 断 的 方式 读 取 数 据 , 而 是 首先 
采用 中 断 唤醒 数据 接收 的 服务 程序 ,然后 利用 POLL 的 方法 来 轮 询 数据 。 随 着 网 络 接收 速 
度 的 增加 ,网 卡 触发 的 中 断 不 断 减 少 ,从 而 提升 系统 效率 ,以 下 就 按照 NAPI 方式 的 处 理 流 
程 对 Linux 数据 链 路 层 数 据 包 接收 过 程 进 行 简单 介绍 。 

首先 介绍 用 于 存储 数据 包 处 理 队 列 相关 处 理 信 息 的 核心 数据 结构 struct softnet_data， 
这 个 结构 的 实体 是 全 局 的 , 且 针 对 每 个 CPU 保存 一 个 实体 , 它 从 NIC 中 断 和 POLL 方法 之 
间 传 递 数 据 信息 。 其 中 包含 的 字段 有 : 

struct softnet data 

t 


struct net device * output queue; // 网 络 设备 发 送 队列 的 队列 头 
struct sk buff head input pkt queue; // 接 收 缓冲 区 的 sk buff 队列 
structlist heed poll list; /[FOLL BE & IA 9 3k: 

struct sk buff * completion queue; // 完 成 发 送 的 数据 包 等 待 释放 的 队列 


Struct napi struct backlog; 
# ifdef CONETG NET IMA 
struct dm chan * net dma; 
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#endif 


Linux 数据 链 路 层 处 理 数 据 包 的 流程 如 图 12-7 所 示 。 


ET 系统 内 核 


从 NIC 拷贝 数据 
T 


i 
发 送 软 中 断 请 求 8 
T 


上 层 协议 处 理 数据 包 


数 
netif rx, schedule() 


T- 


推送 给 


net rx action() 


返回 
图 12-7. Linux 链 路 数据 包 接 收 过 程 示意 图 


CD 当 一 个 数据 包 到 来 时 ,NIC 会 产生 一 个 中 断 ,然后 中 断 处 理 代 码 就 会 被 调用 。 该 中 
断 由 网 卡 的 DMA 控制 器 触发 ,属于 硬件 中 断 , 该 中 断 的 触发 意味 着 数据 已 经 从 网 卡通 过 总 
线 拷贝 到 内 存 中 了 。 该 中 断 处 理 函数 如 下 (以 intel 8255x 系列 网 卡 程序 e100 为 例 ) 。 

static irgreturn t el00 intr(int irq, void* dev id) 

f 

struct net device * netdev-dev id; 
struct nic* nic-netdev priv (netdev); 
u8 stat ack- ioreadB (&nic- > csr- > sdb.stat ack); 


DERINIK (INIR, IEHUG, "stat ack- 0x% 02XNn", stat ack); 
if(stat ack-—stat ack not ours || //Not. our interrupt 
stat ack== stat ack not present) //Hardware is ejected 


return IFQ NONE; 


//Bck interrupt (s) 
iowrite8(stat ack, &nic- > csr- > sdb.stat ack); 


//We hit Receive No Resource (RNR); restart RU after cleaning 
if(stat ack & stat ack rnr) 
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nic-»ru running-RU SUSFENDED; 


if(likely(netif rx schecdile prep(netdev, &nic->nspi))) ( 
el00 disable irg(nic); 
. netif rx sdiedile(netdev, &nic- » nepi); 


return IFO HANOED; 


(2) 其 中 ,netif_rx_schedule_prep() 函 数 用 于 确定 设备 处 于 运行 中 ,而 且 设 备 还 没有 被 
添加 到 网 络 层 的 POLL 处 理 队 列 中 ，_netif_rx_schedule() 函 数 就 是 将 有 等 待 接收 数据 包 
的 NIC B£ À softnet_data 的 poll_list 队列 中 ,然后 触发 软 中 断 , 让 软 中 断 处 理 函数 去 完成 数 
据 的 处 理工 作 。 在 调用 该 函数 前 ,Linux 内 核 通 过 el00_disable_irq(nic) 和 暂停 该 中 断 。 

函数 _netif_rx_schedule() 的 代码 如 下 ; 

static inline void _ netif rx schedule(struct net devicex dev, 

struct napi struct* napi) 
t 
. napi schedule(napi); 
) 
可 见 该 中 断 的 处 理工 作 在 函数 _napi_schedule() 中 完成 ,其 代码 如 下 : 


void fastcall _ napi schedule (struct napi struct* n) 
t 
unsigned long flags; 


local irq save(flags); 
list adi tail(&n-»poll list, & get cpu var(softnet data).poll list); 
. raise softirq irqoff(NET FX SOFTIRO); 
local irq restore (flags); 
j 
G) 该 函数 把 NIC 设备 挂 在 softnet_data 结构 中 的 poll list 队列 上 ,以 便 及 时 地 返回 
中 断 ,让 专门 数据 包 处 理 Bottom Half 部 分 来 进行 处 理 。 系 统 调用 函数 list_add_tail() 把 当 
前 NIC 设备 挂 在 POLL 队列 中 ,等 待 唤 醒 软 中 断 以 后 进行 轮 询 ,然后 在 确定 当前 该 设备 所 
要 准备 接收 的 包 大 小 后 通过 _raise_softirq_irqoff(NET_RX_SOFTIRQ) 发 布 一 个 软 中 断 
请 求 ,等待 内 核 处 理 该 软 中 断 ( 完 成 Bottom. Half 部 分 ) 。 
Linux 中 断 服务 一 般 都 是 在 将 中 断 请 求 关闭 的 条 件 下 执行 的 ,以 避免 中 断 嵌 套 而 使 控 
制 复杂 ,但 这 样 做 存在 以 下 问题 : 如 果 在 中 断 服务 执行 的 全 过 程 关 中 断 会 使 CPU 不 能 响应 
其 他 的 中 断 请 求 ; 如 果 在 全 过 程 开 中 断 则 又 可 能 造成 中 断 赃 套 ( 单 CPU 下 中 断 嵌 套 执行 ， 
多 CPU 下 并 发 执行 同一 中 断 )。 为 此 ,Linux 将 中 断 服务 程序 一 分 为 二 ,分 别称 作 “Top 
Half” 和 “Bottom Half", Top Half 通常 对 时 间 要 求 较为 严格 ,必须 在 中 断 请 求 发 生 后 立即 
或 至 少 在 一 定 的 时 间 限 制 内 完成 ,为 了 保证 这 种 处 理 能 原子 地 完成 ,Top Half 通常 是 在 
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CPU 关中 断 的 条 件 下 执行 的 。 而 Bottom Half 则 是 Top Half 根据 需要 来 调度 执行 的 ,这 
些 操 作 人 允许 延迟 到 稍 后 执行 , 它 的 时 间 要 求 并 不 严格 ,因此 通常 是 在 CPU 开 中 断 的 条 件 下 
执行 的 。 所 以 针对 某 些 复杂 的 中 断 操作 ,Linux 系统 根据 其 重要 性 将 该 操作 拆 分 成 两 部 分 ， 
重要 部 分 在 Top Half 中 完成 ,剩余 的 部 分 在 Bottom Half 中 执行 。 

(4) 函数 _raise_softirq_irgoff(NET_RX_SOFTIRQ) 挂 起 的 软 中 断 (Bottom Half) 请 
求 会 由 函数 net_rx_action() 执 行 , 该 函数 的 代码 如 下 : 


static void net. rx action(struct softirq action* h) 
t 
struct list head* list-& get cpu var(softnet data).poll list; 
unsigned long start time- jiffies; 
int budget- netdew budget; 
void* have; 
local irq diseble(; 


while (Mist empty(list)) ( 
struct napi struct* n; 
int work, weight; 
if (unlikely(budget» - O|[jiffies !- start time)) 
goto softnet break; 


local irq enable(); 
n-list entry(list- » next, struct napi struct, poll list); 
have-netpoll poll lock(n); 
weight- n- > weight; 
work- 0; 
if (test bit(NAPI STATE SCHED, &n- > state)) 
warken- » pall (n, weight); 
WARN CN ONCE (work > weight); 
budget- = work; 
local irq disable(); 
if (unlikely(work-— weight)) ( 
if (unlikely(napi disable pending(n))) 
. napi omplete (n); 
else 
list move tail(&n- »poll list, list); 


netpoll poll unlock (have); 


local irq endble(); 


difdef OONFIG NET IMA 


// 省 略 Da 相关 代码 
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fendif 
retum; 


softnet break: 
. get qu var(netdev rx stat) .time sqneezer+ ; 
. raise softirq irqpff(NET EX SOFTIRQ); 
goto out; 

) 


这 个 函数 的 主要 作用 是 遍历 有 数据 帧 等 待 接收 的 设备 链表 ,对 于 每 个 设备 ,通过 while 
循环 遍历 并 调用 其 对 应 的 poll() 函数 接受 数据 ,在 NAPI 模式 下 ,poll() 函 数 由 网 卡 驱动 程 
序 提供 ,并 在 该 函数 中 完成 对 该 网 卡 上 数据 包 的 轮 询 POLL 操作 ,在 收 到 一 个 完整 的 数据 
包 后 ,通过 netif_receive_skb() 函 数 将 数据 包 交 给 上 层 协 议 处 理 。 

例如 intel 8255x 系列 网 卡 程序 e100 的 poll() 函 数 实现 代码 如 下 : 


static int e100 poll (struct net device * netdev, int* budget) 
f 
struct nic* nic-netdev priv(netdev); 
unsigned int work to do-min(netdev- > quota, * budget) ; 
unsigned int work done- 0; 
int tx cleaned; 
e100 zx clean fnic, @ork che, work to d); 
tx cleaned-el00 tx cleen(nic); 
//1£ no Fx and Tx cleanup work was done, exit polling mode. 
if((!tx cleaned && (work done- —0))|| Inetif running(netdev)) ( 
netif rx oqmplete(netdev); 
e100 enable irq(nic); 
retum 0; 


) 


该 函数 调用 e100 rx clean O 函数 实现 对 数据 包 的 进一步 处 理 , 并 调用 elo0 rx 
indicate( ) 函 数 对 数据 包 进 行 后 续 处 理 , 并 最 终 通过 陋 数 netif _receive_skb() 将 数据 包 送 交 
上 层 协 议 栈 。 

函数 netif_receive_skb() 的 代码 如 下 : 


int netif receive skb(struct sk buff* skb) 
t 
Struct packet type* ptype, * pt prev; 
struct net device* orig dev; 
int ret-NET RX DFOP; 
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. belé type; 


//if we've gotten here through NAPI, check netpoll 
if (netroll receive skb(sko)) 
return NET RX IFOP; 
if (!skb-» tstemp.tv64) 
net timestamp(skb); 
if (Isko-» iif) 
Skb- > iif- skb- > dev- > ifindex; 
Orig dev= skb bond(skb); 
if (orig dev) 
return NET RX IROP; 
. get qu var(netdev rx stat).totalt- ; 
skb reset network header (skb); 
skb reset transport header (skb); 
skb-»mac len- skb- > network header- skb- »mac header; 
pt prev- NULL; 
rcu read lock(); 


# ifdef OONFTG NET CIS ACT 
if (skb-»tc verd & IC NIS) ( 
skb-»tc verd-CIR TC NCIS(skb- > tc verd); 
goto nels; 
) 
#endif 
list for each entry rcu(ptpe, &otype all, list) { 
if (!ptype- > dev|| ptype- > dev- — skb- > dev) ( 
if (pc prev) 
ret-deliver skb(skb, pt prev, orig dev); 
pt prev- ptype; 


# ifdef OONFIG NET CIS ACT 
sSko-handle ing(skb, &pt prev, &ret, orig dev); 
if (!skb) 
goto out; 
ncls: 
#endif 
Skb= handle bridge(skb, &pt prev, &ret, orig dev); 
if (!skb) 
goto out; 
skb-handle macvlan(skb, &pt prev, &ret, orig dev); 
if (!skb) 
goto out; 
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type= skb- > protocol; 
list for each entry rcu(ptype, &ptype base[ntchs (type)&15], list) { 
if (ptype- > type-- type && 
(!ptype- » dev || pcype- >dev== sk>- » dev)) ( 
if (pt prev) 
ret-deliver skb(skb, pt prev, orig dev); 
pt prev-ptype; 


) 


if (pt prev) ( 
ret-pt prev-» func(skb, skb- > dev, pt prev, orig dev); 
lelset 
kfree skb(skb); 
//Jamal, now you will not able to escape explaining 
/ne how you were going to use this. :- ) 
ret-NET RX IFOP; 


rcu read unlock(); 
retum ret;) 
该 函数 与 本 章 示例 程序 关系 非常 密切 ,其 主要 作用 是 将 网 卡 获得 的 数据 提交 给 上 层 协 
议 。 该 函数 主要 通过 两 个 遍历 链表 的 操作 完成 数据 提交 : 
CD 通过 list for each entry rcu(ptype. &ptype all. list) 遍 历 ptype_all 链 , 该 链表 对 应 注 
册 到 内 核 的 原始 套 接 字 , 系 统 在 该 函数 中 将 数据 包 传 递 给 系统 中 注册 的 相关 原始 套 接 字 。 
© 通过 list for each. entry rcu(ptype. &ptype  base[ ntohs(type) &-15], list) 4 Jj 
ptype base 链表 ,这 个 链表 对 应 系统 中 注册 的 网 络 层 协议 ,会 根据 数据 包 的 类 型 调用 相关 协 
议 处 理 函 数 进行 处 理 。 例 如 如 果 此 处 收 到 一 个 IP 数据 包 , 系 统 就 会 调用 TP 数据 包 协 议 处 
HAX ip_rcv() 进 行 处 理 。 
至 此 ,Linux 系统 的 数据 链 路 层 数据 处 理 过 程 分 析 完 毕 。 


2. 程序 设计 概述 


根据 以 上 分 析 ,Linux 原 有 的 TCP 非法 SYN 数据 包 的 判断 和 丢弃 机 制 是 在 传输 层 实 
现 的 。 数 据 包 在 被 丢弃 之 前 ,不 但 经 历 了 定时 等 待 ,以 及 多 次 TCP SYN 十 ACK 数据 包 的 传 
送 , 而 且 还 需要 经 过 数据 链 路 层 和 网 络 层 的 多 次 处 理 , 浪 费 了 大 量 网 络 资源 。 

基于 以 上 分 析 , 本 章 设计 的 防火 墙 是 在 数据 链 路 层 实现 TCP SYN 的 检测 与 丢弃 功能 。 
设计 的 要 点 如 下 : 

(1) 修改 系统 内 核 网 络 协议 栈 中 数据 链 路 层 的 代码 ,在 数据 链 路 层 增 加 一 个 函数 指针 
用 于 导入 TCP SYN 数据 包 判断 函数 ,并 根据 判断 结果 ,丢弃 识别 出 的 TCP SYN 数据 包 。 

(2) 使 用 LKM 模块 实现 TCP SYN 数据 包 判断 函数 的 功能 ,这 样 可 以 在 需要 时 动态 将 
该 函数 链接 入 系统 内 核 , 尽 量 减少 对 系统 内 核 的 直接 修改 。 


$123 Linux 内 核 网 络 协议 栈 加 固 


综 上 所 述 ,函数 netif_receive_skb() 用 于 将 数据 链 路 层 的 完整 数据 包 向 上 传递 给 网 络 
层 ,所 以 要 在 该 函数 中 进行 扩展 ,添加 SYN 数据 包 判 断 及 丢弃 功能 模块 。 函 数 netif_ 
receive_skb() 在 文件 ”net/core/dev. c” 中 实现 。 


3. 系统 内 核 扩展 代码 分 析 


为 添加 该 模块 ,首先 在 文件 “net/core/dev. c” 头 部 声明 函数 指针 变量 pAntiDoSHook. 
用 于 导入 TCP SYN 数据 包 判断 函数 的 指针 ,并 将 该 函数 指针 初始 化 为 NULL( 代 码 如 下 ) 。 


int (* pAntiDoSHock) (struct sk buff* skb)- NULL; 
然后 ,在 函数 netif_receive_skb() 中 加 入 如 下 代码 (斜体 下 划 线 标注 的 部 分 ) : 


if (lorig dev) 
return NET RX IFOP; 


. get cpu var(netdev rx stat) .totalt+; 


sko- > h.raw- skb- > nh.raw- skb- > data; 
sko->mac len- skb- > nh.raw- skb- > mac.raw; 


Af MIL I= phnt-1D2SEbok) 


if (0==, (si) 


pt prev-NULL; 
rau read lock(); 
difdef OONEIG NET CIS ACT 
if (sko-»tc verd & TC NIS) ( 
ase —— ER SE verd); 
Qon E 
} 

#endif 

由 于 pAntiDoSHook 在 初始 化 时 会 被 设 为 NULL. 所 以 这 段 代 码 首先 检测 
pAntiDoSHook 是 否 被 赋值 ,如 果 未 赋值 , 则 证 明 过 滤 SYN 数据 包 功 能 未 启动 ,内 核 继续 原 
有 的 处 理 过 程 , 和 否则 调用 该 函数 指针 对 应 的 函数 对 数据 包 进行 判断 ,如 果 确 定 为 TCP SYN 
数据 包 , 则 调用 函数 kfree_skb() 回 收 内 存 . 并 返回 NET_RX_DROP 通知 协议 栈 丢弃 该 数 
据 包 。 

出 于 稳定 性 的 考虑 ,本 程序 尽量 减少 对 Linux. 内 核 源 代码 的 修改 , 故 函 数 指针 
pAntiDoSHook 所 对 应 的 用 来 判断 所 收 到 的 数据 包 是 否 为 SYN 数据 包 的 函数 不 在 Linux 
内 核 中 直接 定义 ,而 是 通过 LKM 模块 加 以 实现 。 

为 了 在 LKM 模块 中 可 以 访问 该 函数 指针 并 对 其 赋值 ,还 需要 使 用 EXPORT _ 


Em 
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SYMBOL 将 该 函数 指针 变量 导出 (代码 如 下 ) 。 


EXECRT' SYMBOL (pantiDoSHook) ; 


4. SYN 数据 包 过 滤 模 块 分 析 


函数 指针 pAntiDoSHook 所 对 应 的 用 来 判断 所 收 到 的 数据 包 是 否 为 SYN 数据 包 的 函 
数 在 LKM 模块 AntiDoS. ko 中 实现 ,其 代码 独立 编写 于 文件 antidos.c 中 。 

在 分 析 该 函数 实现 细节 前 ,首先 介绍 该 函数 的 参数 : 该 函数 的 参数 是 一 个 sk_buff 结构 
的 指针 ,sk_buff 结构 是 Linux 系统 中 网 络 数据 包 处 理 过 程 中 非常 重要 的 结构 体 ,在 文件 
"include/linux/skbuff. h” 中 定义 ,其 定义 如 下 : 


struct sk buff { 
// These two menbers mist be first. 
struct sk buff * next; 
struct sk buff * prev; 
struct sock * sk; 
ktime t tstamp; 


struct net device * dev; 


struct dst entry * dst; 
struct sec path * sp; 


//This is the control buffer. It is free to use for every 
// layer. Please put your private variables there. If you 
/want to keep them across layers you have to do a skb clone() 
//£irst. This is owed by whoever has the skb queued ATM. 


char co[48]; 
unsigned int len, 
data len; 
. ul6 mac len, 
hdr len; 
union { 
. wm csum; 
struct ( 
. ul6 cam start, 
ul6 com offset; 
IE 
E 
ux priority; 
. v8 local df:1, 
cloned:l, 
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_bel6 protocol; 


void (* destructor) (struct sk buff * skb); 
*ifdefined(OONFIG NF OONNTRACK) || defined(CONFIG NF OONNIRACK MODUIE) 
struct nf conntrack * nfct; 
Struct sk buff * nfct reasm; 
#endif 
# ifdef CONFTG BRIDGE NEIFILIER 
struct nf bridge info * nf bridge; 


fendif 
int iif; 
# ifdef OCNFIG NEITEVICES MILTIQUEUE 
. ulé queue mapping; 
fendif 
# ifdef OCNFIG NET SCHED 
. ul6 tc index; //traffic control index 
# ifdef OONFTG NET CIS ACT 
. ulé tc verd; //traffic control verdict 
fendif 
fendif 
//2 byte hole 


# ifdef CCNFIG NET [MA 


dm cookie t dra cookie; 
fendif 
# ifdef CONFIG NEIWORK SECMARK 
. um secmark; 
#endif 
— 4m mark; 
sk buff data t transport header; 
sk buff data t network header; 
sk buff data t mec header; 


//These elements must be at the end, see alloc skb() for details. 
sk buff data t tail; 

sk buff data t end; 

unsigned char * head, 


313 


314 


网 络 安全 高 级 软件 编程 技术 
* data; 
atamic t users, 


该 结构 用 于 索引 一 个 系统 协议 栈 中 的 网 络 数据 包 。 其 本 身 并 不 包含 存放 该 数据 包 数 据 
的 存储 区 ,只 负责 实现 管理 存储 区 空间 地 址 ,维护 多 个 存储 区 空间 ,以 及 解析 网 络 数据 包 等 
功能 ,其 真正 的 物理 存储 区 是 另外 单独 分 配 的 内 存 空间 。 

所 有 的 sk_buff 都 通过 一 个 双向 链表 进行 维护 。 该 双向 链表 中 第 一 个 元 素 是 struct 
sk_buff_head 类 型 。 它 相当 于 该 双向 链表 的 表 头 ,其 中 有 同步 锁 , 链 表 元 素 个 数 等 维护 链表 
的 相关 信息 。 链 表 中 其 他 的 元 素 都 是 sk buff 类 型 ,图 12-8 给 出 了 sk buff 的 链表 结构 示 
意图 。 


struct sk buff head 


-[ nx F 
- 
=| prev 
qlen=4 
lock 
i 
next =| next next =| next 
prev | 一 prev prev | 一 prev 
list list list list 
sk sk sk sk 
struct sk. buff struct sk buff struct sk buff struct sk. buff 


图 12-8 sk buff 链表 结构 示意 图 


sk buff 中 有 4 个 指针 指向 数据 存储 区 。 其 中 head 一 定 指向 存储 区 的 开头 ,end 一 定 
指向 存储 区 的 结尾 ,data 指向 实际 内 容 的 开头 ,tail 指向 实际 内 容 的 结尾 。 在 每 一 层 申请 组 
冲 区 时 , 它 会 分 配 比 协 议 头 或 协议 数据 大 的 空间 。head 和 end 指向 缓冲 区 的 头 部 和 尾部 ， 
而 data 和 tail 指向 实际 数据 的 头 部 和 尾部 。 每 一 层 会 
在 head 和 data 之 间 填 充 协 议 头 ,或 者 在 tail 和 end 之 
间 添 加 新 的 协议 数据 (如 图 12-9 所 示 )。 

data 部 分 的 内 容 包 括 网 络 数据 包 的 所 有 内 容 。 对 
于 输入 包 而 言 , 其 就 是 从 当前 层 向 上 的 所 有 层 的 头 和 ui 
最 后 的 负载 ,每 解析 掉 一 层 的 头 ,该 协议 的 协议 头 对 应 _ š 
的 数据 就 被 处 理 完毕 ,所 以 data 指针 所 指 的 位 置 会 随 | Id 3] 
着 处 理 逐 渐 向 后 移动 。 对 于 输出 包 而 言 ,每 向 下 传输 s= — 
一 层 ,都 会 添加 一 层 的 头 部 ,所 以 sk buff 的 data 指针 : 
会 相应 地 向 前 移动 。 struct sk buff 

对 于 输入 包 而 言 ,存储 区 的 内 容 是 不 变 的 。 但 在 图 12.9 数据 包 结 构 示 意图 


headroom 


Data 
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分 析 包 时 ,在 每 层 都 会 剥 除 该 层 的 头 部 。 虽 然 成 员 变 量 transport header,network header 
和 mac. header 直接 指向 数据 包 各 层 的 包头 位 置 ,但 是 ,新 的 内 核 建议 程序 员 使 用 专门 的 函 
数 获 得 各 层 的 数据 包头 ,这 些 函 数 可 以 通过 调整 内 存 页 提升 程序 执行 效率 ,这 一 点 对 于 高 速 
网 络 尤 其 重要 。 

除 此 之 外 ,其 他 重要 变量 的 含义 如 下 : 

(1) struct sock * sk: 表示 该 网 络 包 所 属 的 socket。 处 理 该 主机 发 送 和 接收 的 网 络 包 ， 
对 应 一 个 socket 套 接 字 ;处 理 转发 的 网 络 包 ,该 成 员 为 NULL. 

(2) struct timeval tstamp: 这 个 变量 只 对 接收 到 的 包 有 意义 。 它 代表 包 接 收 时 的 时 间 
WE. fE netif_rx Ph PRX net. timestamp 设置 ,netif_rx 是 设备 驱动 收 到 一 个 包 后 调用 的 
函数 。 

(3) struct net_device * dev: net device 用 于 描述 网 络 设 备 。dev 的 作用 与 这 个 结构 体 
的 用 途 (发 出 的 包 还 是 接收 的 包 ) 有 关 。 当 收 到 一 个 包 时 ,设备 驱动 会 把 sk_buff 的 dev 指 
针 指向 收 到 这 个 包 的 网 络 设备 ; 当 一 个 包 被 发 送 时 ,这 个 变量 代表 将 要 发 送 这 个 包 的 设备 。 

(4) char cb[48]: 一 个 用 于 对 该 网 络 包 进 行 处 理 的 通用 缓冲 区 。 可 以 存放 一 些 在 不 同 
层 之 间 传 输 的 数据 。 

(5) unsigned int csum.ipsum; 校 验 和 。 

(6) cloned; 一 个 布尔 标记 , 当 被 设置 时 ,表示 这 个 结构 是 男 一 个 sk buff 的 复 本 。 

(7) unsigned char pkt type: 包 类 型 ,可 以 代表 单 播 包 .广播 包 、 多 播 包 与 转发 包 等 。 

(8) priority: 这 个 变量 描述 发 送 或 转发 包 的 QoS 类 别 。 如 果 包 是 本 地 生成 的 , 则 
socket 层 会 设置 priority 变量 。 如 果 包 是 将 要 被 转发 的 ,rt_tos2priority PR CIE IR dli ip 头 
中 的 TOS 域 来 计算 这 个 变量 的 值 。 

(9) protocol; 代表 高 层 协议 从 二 层 设 备 的 角度 所 看 到 的 协议 。 典 型 的 协议 包括 IPv4、 
IPv6 和 ARP。 完 整 的 列表 在 文件 include/linux/if ether. h 中 。 每 个 协议 都 有 自己 的 协议 
处 理 函 数 来 处 理 接收 到 的 包 , 设 备 驱 动 通过 这 个 变量 确定 上 层 应 调用 哪个 协议 的 处 理 函 数 。 
网 络 设备 驱动 调用 卫 数 netif_rx 来 通知 上 层 网 络 协 议 数据 包 的 到 来 ,因此 protocol 变量 必 
须 在 这 些 协 议 处 理 函 数 调用 之 前 进行 初始 化 。 

下 面 继 续 对 SYN 包 判 断 函 数 AntiDoSHook() 进 行 分 析 , 在 该 函数 中 ,首先 确定 收 到 数 
据 包 的 目的 物理 地 址 与 本 机 网 卡 的 物理 地 址 相同 .然后 判断 网 卡 是 否 工作 于 桥接 模式 ,并 分 
别 检测 数据 包 的 目的 物理 地 址 以 判断 该 数据 包 是 否 是 发 给 本 机 的 ,并 直接 放行 目的 地 址 非 
本 主机 的 数据 包 ( 代 码 如 下 ) 。 

extem int (* pAntiDoSHook) (struct sk buff* skb); 

# define DROP PAKET — 1 

define PASS PACKET 0 

static int AntiD-SHock (struct sk buffx skb) 

I 

struct iphdr* iph; 
struct taphdrx th; 
if (skb-»dev-»br port!- NULL) // 和 判断 是 否 为 桥接 模式 
Li 
struct net bridge port * pbrpt- skb- > dev— >br port; 
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if (tmemamp (eth hdr(skb)-»h dest, 
pbrpt-» dev- > dev adir, 
ETH AIEN)) 


return PASS PACKET; 


if (tmemam(eth hdr(skb)-»h dest, skb-»dev-»dev addr,ETH AIEN)) 
{ 
return PASS PACKET; 
} 
3 


然后 检验 该 数据 包 的 协议 类 型 ,直接 放行 非 IP 协议 簇 的 数据 包 ( 代 码 如 下 )。 


if (sKo-» protocol != constant htons (ETH P IP)) 
t 
return PASS PACKET; 
) 


接着 判断 数据 包 是 否 被 其 他 函数 共享 ,由 于 丢弃 共享 数据 包 会 造成 系统 异常 ,所 以 在 本 
函数 中 直接 放行 被 共享 的 数据 包 (代码 如 下 )。 


if ((skb-skb share check(skb, GFP ATOMIC))- — NULL) 
t 

return PASS PACKET; 
) 


TE V eR 3k rh £ KA pskb. may. pullCstruct sk, buff * skb, unsigned int len) ,用 于 判 
断 数 据 包 的 完整 性 , 即 该 sk_buff 所 包含 数据 的 长 度 是 否 大 于 等 于 len, 

程序 接 下 来 判断 该 数据 包 是 否 包 括 一 个 完整 的 IP 头 , 如 果 包 括 , 则 函数 继续 通过 检查 
数据 包 中 的 协议 类 型 是 否 为 4, 以 确定 该 数据 包 是 否 为 IP V4 数据 包 , 并 进而 通过 IP 头 末 
尾 选项 位 判断 整个 完整 的 IP 头 是 否 接 收 完 全 (skb_may_pull(skb, iph—ihl * 4)) (代码 
如 下 )。 


if (!pskb may pull (skb, sizeof (struct iphdr))) 
{ 
return DFOP PACKET; 
) 
iph-ip hdr (skb); 
if (iph- » ihl« 5|] iph- > version !=4) 
t 
return TROP PACKET; 
) 
if (!pskb may pull (skb, iph-»ihl* 4)) 
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t 
retum IFOP PACKET; 
k 


此 后 ,程序 进一步 通过 检查 IP 头 中 的 协议 类 型 字段 ,确定 第 3 层 协议 为 TCP, 然 后 借 
助 pskb_may_pull() 函数 判断 整个 TCP 头 包括 TCP 选项 头 的 完整 性 ,最 后 使 用 “if(th-> 
syn— —1) ”判断 该 TCP 包头 部 对 应 的 SYN 属性 位 是 否 为 1, 如果 为 1, 则 丢弃 该 数据 包 
(代码 如 下 )。 


if (iph > protocol== TPPFOIO TCP) 
t 
if (!pskb may pull (skb, iph-»ihl* 4+ sizeof (struct tcphdr))) 
t 
return DROP PACKET; 
) 
th= tcp hdr (skb) ; 
if (th- > doff< sizeof (struct taphdr) /4) 
{ 
return DROP PACKET; 
) 
if (!pskb may pull (irh- > ihlx 4+ skb, th- > doff* 4)) 
t 
return DROP PACKET; 
) 
if (th->sym==1) 
t 
return DROP PACKET; 
) 
} 
retum PASS PACKET; 
j 


此 外 ,在 判断 桥接 模式 时 使 用 的 数据 结构 所 在 的 头 文件 *,…， /net/bridge/br_private. 
h" 不 包含 于 系统 默认 的 头 文件 路 径 中 ,所 以 需要 程序 员 将 该 头 文件 路 径 添加 到 对 应 的 文件 
中 ,本 章 示例 程序 出 于 兼容 性 考虑 在 本 地 文件 重新 声明 了 所 需要 的 结构 。 

对 系统 指针 pAntiDoSHook 赋值 的 工作 由 本 LKM 模块 的 初始 化 和 退出 函数 自动 实现 
(代码 如 下 ): 


static int _ init init( void ) 
t 
pàntiDoSHook- AntiDoSHook; 
return 0; 
} 
static void _ exit destroy( void ) 
t 
if (pantiDoSHock) 
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phntiDoSHock- NULL; 


modde init( init ); 
module exit ( destroy ); 

至 此 ,实现 了 对 Linux 网 络 协议 栈 的 加 固 ,增强 了 其 对 TCP SYN 攻击 的 防御 能 力 。 在 
重新 编译 内 核 以 后 ,加 载 LKM 模块 antidoS. ko, 即 可 以 通过 过 滤 SYN 数据 包 实现 防御 
SYN 洪水 攻击 。 本 章 示 例 程序 基于 Linux2. 6. 24 内 核 开发 ,如 果 使 用 较 低 版 本 的 内 核 , 示 
例 代码 会 因为 部 分 函数 未 定义 而 无 法 成 功 编译 。 

综 上 所 述 ,在 弄 清 Linux 网 络 协议 栈 处 理 数据 包 的 过 程 后 ,代码 开发 变 得 非常 容易 , 工 
作 量 也 很 少 。 这 就 是 开源 系统 的 魅力 所 在 ,开发 人 员 可 以 通过 简单 修改 其 源 代码 轻松 实现 
对 系统 功能 的 扩展 。 


12.4 扩展 与 提高 


12.4.1 其 他 拒绝 服务 式 攻 击 方式 的 讨论 


技术 是 在 不 断 进步 的 ,攻击 与 防范 总 是 在 相互 斗争 中 不 断 发 展 的 。 目 前 拒绝 服务 式 攻 
击 方法 存在 以 下 几 个 发 展 趋势 。 


1. IP 碎片 攻击 


数据 链 路 层 具有 最 大 传输 单元 MTU 这 个 特性 , 它 限 制 了 数据 帧 的 最 大 长 度 ,不同 的 网 
络 类 型 都 有 一 个 上 限 值 。 以 太 网 的 MTU 是 1500, 可 以 用 netstat-i 命令 查看 这 个 值 。 假 如 
IP 层 待 传输 数据 包 的 长 度 超过 了 MTU. W IP 层 要 对 数据 包 进 行 分 片 操作 ,使 每 一 片 的 长 
度 都 小 于 或 等 于 MTU. 例如 要 传输 一 个 UDP 数据 包 , 以 太 网 的 MTU 为 1500 字 节 ,一 般 
IP 首部 为 20 字 节 ,UDP 首部 为 8 字 节 , 则 数据 的 有 效 载荷 部 分 预 留 为 1500 一 20 一 8 二 1472 
字 节 。 假 如 数据 部 分 大 于 1472 字 节 ,就 会 出 现 分 片 现象 。 

IP 包头 部 的 “标志 ”字段 与 “ 片 偏 移 " 字 段 包含 分 片 和 重组 信息 。 其 中 ,“ 标 志 ” 字 段 长 度 
为 3 位 ,包含 : 保留 位 (1 位 ) ;不 分 段位 (1 位 ), 取 值 0 表示 允许 数据 报 分 片 ,1 表示 数据 报 不 
能 分 片 ;更 多 片 位 (1 位 ), 取 值 0 表示 数据 包 后 面 没有 包 , 该 包 为 最 后 的 包 , 取 值 1 表示 该 包 
不 是 最 后 的 包 。“ 段 偏 移 量 " 在 数据 分 组 时 , 它 和 更 多 段位 (More Fragments. MF) 进 行 连 
接 ,帮助 目的 主机 将 分 片 的 包 组 合 。 

利用 IP 分 片 协议 ,攻击 者 可 以 利用 发 送 不 完全 IP 分 片 数据 包 , 进 行 拒绝 服务 式 攻击 ， 
此 外 , 某 些 系统 在 重组 IP 分 片 数据 包 时 存在 若干 漏洞 ,车 加 以 利用 ,攻击 危害 更 严重 。 

以 下 是 几 种 基于 IP 分 片 的 拒绝 服务 攻击 方法 。 

(1) Tear drop 攻击 

Tear drop 攻击 是 一 种 基于 UDP 的 错误 分 片 数 据 包 的 碎片 攻击 。 由 于 UDP 发 送 数 据 
无 法 自动 实现 数据 的 拆 分 , 即 无 法 自动 将 大 数据 在 多 个 数据 包 中 拆 分 发 送 ,所 以 某 些 路 由 器 
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会 针对 该 类 大 UDP 数据 包 在 网 络 层 进行 自动 拆 分 ,将 其 拆 分 成 若干 个 IP 包 。 攻 击 者 可 以 
利用 上 述 行为 发 起 Tear drop 攻击 ,其 工作 原理 是 向 被 攻击 者 发 送 多 个 伪造 的 分 片 的 全 包 
(IP 分 片 数 据 包 中 包括 该 分 片 数据 包 所 属 的 数据 包 以 及 此 分 片 在 数据 包 中 的 位 置 等 信息 )， 
某 些 版 本 的 操作 系统 存在 安全 漏洞 ,在 收 到 含有 重 和 至 偏 移 ( 数 据 包 中 第 2 片 卫 包 的 偏 移 量 
小 于 第 1 片 结束 的 位 移 ,而 且 第 2 片 IP 包 的 偏 移 量 加 上 数据 长 度 , 也 未 超过 第 1 片 的 尾部 ) 
的 伪造 分 片 数 据 包 时 将 会 出 现 系 统 崩 溃 、 重 启 等 现象 。 即 便 是 不 包含 该 漏洞 的 主机 也 会 因 
为 试图 重组 该 数据 包 而 浪费 大 量 的 系统 资源 ,从 而 影响 其 正常 服务 。 

(2) Pingo Death 攻击 

Pingo Death 攻击 是 利用 ICMP 协议 的 一 种 碎片 攻击 。 某 些 操作 系统 在 进行 ICMP 碎 
片 重组 时 预 分 配 的 缓冲 区 大 小 为 65535 字 节 ,攻击 者 通过 碎片 重组 ,发 送 一 个 长 度 超过 
65535 的 ICMP Echo Request 数据 包 , 目 的 主机 在 重组 分 片 时 会 造成 事先 分 配 的 65535 字 
节 缓 冲 区 溢出 ,从 而 导致 系统 崩溃 或 挂 起 。 


2. 利用 反弹 技术 进行 拒绝 服务 式 攻击 


反弹 服务 器 是 指 在 Internet 上 开放 某 种 服务 ,并 在 收 到 一 个 该 服务 特定 请 求 数 据 报 后 
就 会 产生 一 个 回应 数据 报 的 主机 。 反 弹 服 务 器 上 开放 的 服务 一 般 为 匿名 服务 ,或 者 存在 身 
份 认证 漏洞 ,以 至 于 攻击 者 可 以 冒充 被 攻击 者 身份 发 送 服务 请 求 , 进 而 使 反弹 服务 器 发 送 数 
据 包 到 被 攻击 者 的 地 址 。 

基于 反弹 技术 的 拒绝 服务 式 攻击 原理 是 : 通过 发 送 大 量 源 地 址 伪造 为 目的 主机 的 欺骗 
请 求 数据 包 给 Internet. 上 的 反弹 服务 器 群 ; 反 弹 服 务 器 群 收 到 请 求 后 将 发 送 大 量 的 应 答 包 
给 目的 主机 ,使 受害 的 目的 主机 出 现 瘫 痪 状态 。 

在 Internet 上 可 以 被 利用 作为 反弹 服务 器 的 主机 有 很 多 ,例如 ,任何 开放 TCP 端口 的 
服务 器 ,如 Web 服务 器 ,FTP 服务 器 以 及 不 需要 认证 的 DNS 服务 器 等 ,攻击 者 可 以 通过 周 
充 目的 主机 的 方式 ,给 上 述 主机 发 送 伪造 的 服务 请 求 数据 包 ,数据 包 源 地 址 伪造 为 目的 主 
机 ,如 TCP SYN 数据 包 或 者 DNS 查询 请 求 数据 包 , 然 后 收 到 上 述 数 据 包 的 主机 就 会 将 对 
应 的 应 答 数 据 包 发 回 目的 主机 ,由 于 Internet. 上 存在 很 多 满足 反弹 服务 器 条 件 的 主机 ,所 以 
攻击 者 可 以 很 容易 找到 足够 多 的 反弹 服务 器 实施 攻击 ,堵塞 目的 主机 的 网 络 信道 ,实现 拒绝 
服务 的 目的 。 基 于 反弹 技术 的 拒绝 服务 式 攻击 系统 结构 如 图 12-10 所 示 。 

基于 反弹 的 拒绝 服务 式 攻击 方式 增加 了 防御 的 难度 ,也 使 追查 拒绝 服务 式 攻 击 源 变 得 
更 加 困难 。 


3. 利用 应 用 层 协 议 漏洞 进行 拒绝 服务 式 攻 击 


应 用 层 协议 设计 的 漏洞 可 能 被 黑客 利用 ,从 而 发 起 拒绝 服务 式 攻击 。 在 HTTP 协议 
rB, "488 POST 命令 上 传 数据 时 ,可 以 设置 ContentLenth 定义 需要 传送 的 数据 长 度 , 但 是 
HTTP 协议 中 并 没有 对 ContentLenth 的 大 小 进行 限制 ,这 使 得 攻击 者 可 以 通过 伪造 大 数 
据 上 传 消耗 服务 器 内 存 而 进行 拒绝 服务 式 攻击 。 

在 IIS 中 ,用 户 POST 数据 时 ,系统 先 将 用 户 上 传 的 数据 存放 在 内 存 中 , 当 用 户 完成 数 
据 传送 (数据 的 长 度 达到 ContentLenth 时 ) IIS 再 将 这 块 内 存 交 给 特定 的 文件 或 CGI 处 
理 ; 如 果 用 户 POST 非常 大 的 数据 (通过 多 次 数据 发 送 ) 例如 ContentLenth = 
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反弹 服务 器 
图 12-10 反弹 拒绝 服务 式 攻击 示意 图 


OxFFFFFFFF ,在 传送 完成 前 ,内 存 不 会 释放 ,攻击 者 可 以 利用 这 个 缺陷 ,连续 向 Web 服务 
器 发 送 伪造 的 POST 传输 大 数据 命令 ,从 而 使 Web 服务 器 在 内 存 中 分 配 大 量 的 文件 缓冲 
区 ,进而 造成 服务 器 内 存 耗 尽 , 从 而 达到 拒绝 服务 式 攻击 的 目的 。 

对 于 黑客 来 说 ,这 种 攻击 的 优势 主要 表现 在 以 下 几 点 : 

CD 此 方法 基本 不 会 留 下 痕迹 : 由 于 IIS 日 志 在 对 应 操作 完成 后 才 进行 写 入 操作 ,而 本 
攻击 方式 伪造 的 文件 的 上 传 操作 根本 不 可 能 完成 .所 以 不 会 在 日 志 里 留 下 记录 ; 

(2) 由 于 攻击 伪装 成 正常 的 POST 命令 ,所 以 很 难 被 防火 墙 识别 和 拦截 ,防火 墙 很 难 判 
断 一 个 较 大 的 ContentLenth 究竟 是 真 的 上 传 大 文件 还 是 伪造 攻击 s 

(3) 本 攻击 方法 对 攻击 主机 性 能 要 求 较 低 ,只 要 该 主机 能 够 以 足够 高 的 速度 伪造 相关 
的 HTTP 命令 即 可 。 


12.4.2 基于 TCP SYN Cookie 的 SYN Flood 防御 策略 


1. Linux TCP SYN Cookie 原理 介绍 与 代码 分 析 


SYN Cookie 是 目前 能 够 有 效 防范 SYN Flood 攻击 手段 中 最 著名 的 一 种 。SYN Cookie 
H D. J. Bernstain 和 Eric Schenk 发 明 。 其 在 很 多 操作 系统 上 都 有 各 种 各 样 的 实现 ,其 中 
就 包括 Linux 系统 。 

SYN Cookie 是 对 TCP 服务 器 端的 三 次 握手 协议 进行 修改 ,对 SYN Flood 攻击 加 以 防 
范 。 其 原理 如 下 。 在 旧版 的 Linux 中 ,每 当 收 到 SYN 数据 包 时 ,系统 就 为 建立 新 的 TCP i£ 
接 分 配 相应 的 资源 对 该 连接 请 求 进行 处 理 ,而 SYN Cookie 在 TCP 服务 器 收 到 TCP SYN 
包 时 ,并 不 马上 分 配对 应 的 资源 ,而 是 直接 返回 SYN 十 ACK 包 , 该 数据 包 的 Seq 序列 号 是 
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由 源 地 址 、 源 端口 .目标 地 址 目标 端口 和 一 个 加 密 key 进行 加 密 计 算得 出 的 ,同时 作为 该 连 
接 请 求 的 cookie 值 。 在 收 到 ACK 包 时 ,TCP 服务 器 再 根据 该 连接 的 cookie 值 和 该 包 的 
ACK 序号 检查 这 个 ACK 包 的 合法 性 。 确 定 其 合法 性 后 才 分 配 相 应 的 资源 处 理 该 TCP E 
接 。 在 Linux 内 核 中 ,也 基于 该 技术 对 SYN 攻击 进行 了 防御 ,下 面 结 合 代 码 进行 分 析 。 


在 本 章 背 景 知识 介绍 中 提 到 在 Server 端 收 到 第 一 个 SYN 数据 包 后 ,会 进入 tcp_v4_ 


conn_request( ) 函 数 ,下 面 继续 分 析 该 函数 的 代码 。 


int tcp v4 conn request(struct sock* sk, struct sk buffx skb) 
{ 
struct inet reguest sock* ireq; 
struct tcp options received tmp cpt; 
struct request sock* reg; 
. be3? saddr-ip hdr(skb)- > saddr; 
. be32 daddr-ip hdr (skb)- > daddr; 
. u3 isn-'TICP SKB CB(skb)- > when; 
struct dst entry* dst- NULL; 
# ifdef C-NFIG SYN OXKIES 
int went cookie= 0; 
#else 
# define went: cookie 0 //Argh, why doesn't goc qptimize this : ( 
fendi 
if (((struct rtable* )skb->dst)->rt flags & 
(RICF BROADCAST | RICE MJLTICAST)) 
goto drop; 
if (inet csk regsk queue is full(sk) && !isn) { 
# ifdef OCNFIG SYN COCKIES 
if (sysctl tcp syncookies) ( 
want cookie= 1; 
) else 
fendif 
goto drop; 
$ 
if (sk acoeptq is full (sk) && inet csk reqsk queue young(sk) > 1) 
goto drop; 
reg-regsk alloc(&tcp request sock ops); 
if (Ireg) 
goto drop; 
tcp clear options (sbm cpt); 
tmp œt.mss clamp- 536; 
tmp cpt.user mss —tcp sk(sk)-» rx opt.user mss; 
tcp parse cptions(skb, &mp opt, 0); 
if (want cookie) { 
tcp clear gptions(&tmp cpt); 
tmp got.saw tstamp- 0; 
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if (tmp opt.saw tstamp && !tmp opt.rcv tsval) ( 
tmp opt.saw tstemp- 0; 
tmp opt.tstamp ck =0; 
} 
mp gpt.tstamp ok-tmp opt.saw tstamp; 
tcp cpenreq init(reg, sbm opt, skb); 
if (security inet conn request(sk, skb, reg)) 
goto drop and free; 
ireg-inet rsk(reg); 
ireg-» loc addr- daddr; 
ireq-» mt addr- saddr; 
ireq-»opt-tcp v4 save cptions(sk, skb); 
if (Iwant cookie) 
TCP EON create reguest (reg, tcp hdr(sk)); 
if (want cookie) ( 
# ifdef OONFTG SYN COOKIES 
syn flood warning(sk») ; 
# endif 
r= cookie vd init sequence(sk, skb, &req->mss); 
) else if (tisn) ( 
struct inet peer * peer- NULL; 
if (um opt.saw tstemp && 
tap death row.sysctl tw recycle && 
(dst= inet csk route req(sk, reg)) !=NULL && 
(pser- rt get peer((struct rtable* )dst)) !- NULL && 
peer- > vddaddr= = sadir) ( 
if (get seconds()«peer-» tcp ts stamp + TCP PAWS MSL && 
(s32) (peer- > tap ts-req-»ts recent) > 
TCP PNS WINDOW) ( 
NET INC STATS BH(LINUK MIB PAWSPASSIVEFEJECIED) ; 
dst release (dst); 
goto drop and free; 


) 
//Kill the following clause, if you dislike this way. 
else if (Isysctl tcp synoockies && 
(sysctl max syn backlog- inet csk regsk queue len(sk)< 
(sysctl max syn backlog >>2)) && 
(peer|| !peer- > tcp ts stamp) 8& 
(!dst || !dst metric(dst, RIAX RTT))) ( 
LIMIT NEITEBUG(KERN LEBUG "ICP: drop open " 
"request fram $u.$u.$u. $u/Su Wn", 
NIFQUAD (sacr) , 
mtchs (tcp hdr (skb)— > source) ) ; 
dst release (dst); 
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goto drop and free; 
f 
isn-tcp v4 init sequence (skb); 
} 
tcp rsk(reg)-» snt is isn; 
if (tcp v4 send synack(sk, req, dst)) 
goto drop and free; 
if (went cookie) ( 
reqgk free(reg); 
} else { 
inet csk regsk queue hash add(sk, reg, TCP TIMEDUT INIT); 
f 
return 0; 
drop and free: 
regk free(reg); 
drop: 
retum 0; 
} 


CD 首先 检测 编译 选项 ,确定 是 否 将 TCP cookie 功能 编 人 内 核 , 如 果 确 定编 人 , 则 定义 
变量 want. cookie 并 将 其 赋值 为 1 。 

(2) 然后 系统 再 通过 isn— cookie v4 init sequence(sk. skb, &req-» mss) i TCP 
连接 初始 化 Cookie, 

该 函数 在 文件 syncookies. c 中 实现 ,具体 代码 如 下 : 


u32 cookie v4 init sequenoe(struct sock* sk, struct sk buff* skb, ^ ul6* mssp) 
t 
struct tcp sock* tp=tcp sk(sk); 
const struct iphdr* iph-ip hdr(skb); 
const struct tachdr * th= tcp hdr (skb); 
int mssind; 
const  ul6mss- * msp; 
tp-»last synj overflow- jiffies; 
//XXX sort msstab[] by probability? Binary search? 
for (nssinde 0; mss » msstab [nssind* 1]; mssind + ) 
* mssp-msstab [mssind]* 1; 
NET INC STATS BH(LINUX MIB SYNOOOKIESSENT) ; 
return secure tœ syn cookie (iph- > saddr, iph- > dadir, 
th-»scurce, th- » dest, ntchl (th- > seg), 
Jiffies/(Z* 60), mssind); 
H 


G) 其 具体 功能 由 secure_tcp_syn_cookie() 函 数 完成 .摘录 此 函数 的 代码 如 下 : 


static uS? secure tcp syn cookie( u32 sadir, u32 daddr, ul6 sport, 
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. um6 dport, _u32 sseq  u32 count, 
. ua2 data) 


retum (cookie hash(sadir, daddr, sport, dport, 0, 0) + 
sseqt (count« < COCKTEBTTS)+ 
((cookie hash(saddr, daddr, sport, dport, count, 1)* data) 
& OOCKTEMASK) ) ; 

) 


(4) EB «cookie hash O PR # Ë J] SHA 算法 根据 源 地 址 目的 地 址 、 源 端口 .目的 端口 
计算 摘要 ,其 代码 如 下 : 


Static u32 cookie hash(u32 saddr, u32 daddr, u32 sport, u32 dport, 
u32 count, int c) 
t 
. wu32 tmp[16- 5+ SHA WORKSPACE WORDS]; 
memcpy(tmpt 3, syncookie secret [c], sizeof (synoookie secret[c])); 
trp[0]= sacar; 
trp[1]= daddr; 
tup [2]= (sport«« 16)+ dport; 
tmp[3]= count; 
sha transform(tmpt 16, (_u8* )tmp, tmpt 16+ 5); 
retum tnp[17]; 
} 


(D sseq 的 值 为 ntohl(skb—>h. th>seq( 见 函数 cookie_v4_init_sequenceO ff] 143 行 )， 
为 Client 端 发 送 的 TCP SYN 数据 包 的 SEQ 值 。 

© count 为 系统 启动 时 间 ,单位 为 分 钟 ,通过 jiffies / (HZ* 60) 计 算 ,COOKIEBITS 为 
系统 定义 的 常数 。 

@ data 的 值 通过 cookie_v4_init_sequence () 图 数 中 语句 “for (mssind — 0; mss > 
msstab[ mssind+ 1]; mssind 十 十 )” 生 成 ,其 中 , 表 static_ ul6 const msstab[ ] 在 文件 
syncookies. c 中 定义 ,这 个 表 中 保存 的 是 一 些 可 能 的 MSS(Maximum Segment Size) 值 。 本 
名 代码 从 前 往 后 寻找 最 后 一 个 小 于 skb 中 携带 的 MSS 值 的 索引 ,由 于 MSS 值 在 系统 启动 
后 不 会 变化 ,因此 可 以 把 该 值 当 作 一 个 常量 。 

(5) 生成 的 Cookie 就 会 作为 Server 端 发 送 的 SYN 十 ACK 数据 包 的 SEQ 号 ,传输 到 
Client 端 。 到 目前 为 止 ,系统 并 没 给 该 socket 分 配 任何 内 核 存储 空间 。 所 以 即便 本 SYN 包 
属于 一 次 拒绝 服务 式 攻击 ,系统 也 不 会 因为 处 理 该 包 浪 费 太 多 的 系统 资源 。 

(6) 然后 ,Server 端 等 待 Client 端 发 送 的 ACK 包 , 收 到 该 包 后 ,系统 调用 tcp_v4_hnd_ 
req() 函 数 (代码 如 下 )。 

static struct sock* tcp v4 hnd req(struct sock* sk, struct sk buff* skb) 

t 

struct tcchdr* th= tcp hdr (skb); 
const struct iphdr* iph-ip hdr(skb); 
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struct sock* nsk; 
struct request sock**prev; 
//Find possible connection requests. 
struct request sock* rege inet csk search reg(sk, &orev, th- 5 source, 
iph- > sadir, iph- > decir); 
if (reg) 
return tcp check req(sk, skb, reg, prev); 
nsk-inet lookup esteblished(&tcp hashinfo, iph- > saddr, th- > source, 
iph-» daddr, th- > dest, inet iif(skb)); 
if (nsk) ( 
if (nsk-»sk state !=TCP TIME WATT) ( 
kh lock sock (nsk); 
return nsk; 
) 
inet twsk put (inet twsk (nsk)); 
return NULL; 
) 
# ifdef CCNFIG SYN QOCKIES 
if (Ith-» rst && !th- > syn && th- » ack) 
ske cookie vd check(sk, skb, &(IECB(skb)- » qpt)); 
fendif 
retum sk; 
) 


根据 12.2 节 的 分 析 , 在 系统 收 到 Client 发 送 的 ACK 包 后 ,由 于 其 已 经 在 发 送 SYN 十 


ACK 时 将 该 socket 的 相关 信息 存 人 了 系统 的 半 连 接 表 中 ,所 以 ,函数 会 调用 tcp_check_req() 
函数 ,完成 整个 socket 的 建立 过 程 。 


(7) 在 系统 开启 TCP SYN Cookie 的 情况 下 ,Server 端 发 送 SYN+ ACK 时 并 不 会 在 半 


连接 表 中 保存 信息 ,所 以 代码 inet csk. search. req(sk. &prev. th- >source，iph- » saddr. 
iph- >daddr) 不 会 找到 任何 满足 条 件 的 socket 套 接 字 。 然 后 系统 检查 该 socket 是 否 能 在 已 
经 建立 好 的 连接 表 或 者 time wait 表 中 找到 。 如 果 找 到 了 , 则 可 能 是 由 于 错误 造成 的 ,为 了 
安全 起 见 ,关闭 这 个 连接 。 


(8) 在 未 发 生 错 误 的 情况 下 ,代码 会 继续 执行 ,调用 函数 cookie_v4_check() 对 该 数据 


包 的 ACK 进行 检测 ,来 判断 该 ACK 是 否 属于 本 系统 的 一 个 半 连 接 socket, 其 实现 代码 
如 下 : 


struct sock* cookie v4 check(struct sock* sk, struct sk buff* skb, 
struct ip options* cpt) 
t 
struct inet request sock* ireg; 
struct tcp request sock* treg; 
struct tcp sock* tp=tcp sk(sk); 
const struct tcphdr* th= tcp hdr (skb); 
.. u32 cookie=ntchl (th- » ack seg)- 1; 
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struct sock* ret- sk; 
struct request sock* reg; 
int mess; 

struct rtable* rt; 

. 18 rcv wscale; 


if (Isysctl tcp syncookies || !th- >ack) 
goto out; 


if (time after(jiffies, tp-»last syng overflow TCP TIMEDUT INIT) || 
(mss= cookie check(skb, cookie))==0) ( 
NET INC STATS BH(LINUX MIB SYNOOCKIESFAILED) ; 
goto out; 


NET INC STATS EH(LINUX MIB SYNOOOKIESFECV); 


/省 略 代码 若干 ,该 代码 主要 用 于 生成 该 sccket 在 内 核 中 储存 所 需 的 相关 数据 
ireq- > rcv wscale- rcv wscale; 


reb-get cookie sock (sk, skb, reg, &t- »u.dst); 
out: return ret; 
) 
(9) 程序 首先 通过 收 到 数据 包 的 ACK 号 还 原 cookie, 然 后 通过 cookie check O PRICE 
illl cookie 的 合法 性 ,如 果 该 cookie 合法 , 则 确定 其 为 一 个 有 效 的 ACK 包 , 即 该 包 属于 当前 
系统 一 个 处 于 半 连 接 状 态 的 套 接 字 , 则 调用 函数 get_cookie_sock() 将 其 存 和 人 系统 内 核 中 ， 
并 返回 相关 的 socket 存储 结构 指针 。get_cookie_sock() 函 数 的 代码 如 下 : 


static inline struct sock* get cookie sock(struct sock* sk, struct sk buff* skb, 
struct request sock* reg, 
struct dst entry* dst) 


struct inet connection sock* icsk-inet csk(sk); 
struct sock* child; 
child-icsk-»icsk af œs- > syn recv sock(sk, skb, reg, dst); 
// 生 成 socket 描述 结构 实体 
if (child) 
inet csk regpk queue adi(sk, reg, child); /将 该 结构 实体 存 人 系统 相关 队 
列 中 


regk free(reg); 


} 
(10) 对 Cookie 的 检测 是 通过 函数 cookie_check() 实 现 的 ,其 代码 如 下 : 
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static inline int cookie check(struct sk buff* skb, _ u32 cookie) 
t 
— um seg 
. wu3 mssind; 
seq- ntchl (skb- » h.th- > seg) - 1; 
mesind- check tcp syn oockie (cookie, 
Skb- » nh.iph- > saddr, skb- > nh.iph- > daddr, 
skb- » h.th- > source, skb- » h.th- > dest, 
seg, jiffies/(HZ* 60), COUNIFR TRIES); 
retum mssind« NUM MSS? msstab[mssind]* 1:0; 
} 


其 中 ,函数 check_tcp_syn_cookie() 的 代码 如 下 : 


Static  u32dheck tcp syn oookie( u32 cookie, u32 saddr, _ u32 daddr, 
. ul6 sport,  ul6dport, _ u32 sseg, 
. u cout, _ u32 maxdiff) 


u32 diff; 
Tii maronii fram the cookie 
cookie- = cookie hash (saddr, daddr, sport, dport, 0, 0)+ sseq; 
//Cockie is now reduced to (count* 2^24)^ (hash $2^24) 
diff- (count- (cockie»» OOCKIEBITS)) & ((_ u32)- 1>> OOCKIEBITS) ; 
if (diff» -maxdiff) 
return ( u3)-1; 
retum icol: 
cookie hash (sacr, daddr, sport, dport, count- diff, 1)) 
& omes; //Leaving the data behind 
) 
(11) 可 见 ,函数 check_tcp_syn_cookie() 使 用 同样 的 算法 对 源 地 址 .目的 地 址 、 源 端口 、 
目的 端口 进行 哈 希 ,并 与 从 Client 端 所 获得 的 Cookie 进行 减 操作 ,进而 获得 count 值 的 差 
值 ,如 果 差 值 小 于 阅 值 COUNTER_TRIES, 则 返回 上 文 介绍 计算 Cookie 时 介绍 的 data 值 ， 
即 cookie v4 init sequenceO 函数 中 的 变量 mmsind。 然 后 系统 在 cookie check O RAUP xf 
该 值 进行 检测 ,确定 该 Cookie 的 有 效 性 。 
以 上 就 是 在 Linux 2. 6 内 核 中 对 TCP SYN Cookie 实现 的 全 部 分 析 ,总而言之 ,最 一 般 
的 SYN Flood 攻击 方式 是 攻击 者 作为 TCP 客户 机 发 送 大 量 孤 立 的 TCP SYN 包 , 消 耗 该 主 
机 的 系统 资源 ,进而 达到 拒绝 服务 的 目的 。 在 12. 22 试验 中 以 及 上 节 代 码 分 析 所 示 ,系统 会 
为 收 到 的 每 一 个 SYN 数据 包 保 存 若干 信息 .并 在 发 送 SYN-- ACK 数据 包 没 能 收 到 对 应 
ACK 数据 包 后 重 发 该 包 若 干 次 ,消耗 大 量 的 系统 资源 ,从 而 致使 攻击 者 的 拒绝 服务 式 攻击 
成 功 。 
而 基于 TCP SYN Cookie 的 TCP 协议 改良 版 在 收 到 SYN 数据 包 后 发 送 SYN+ ACK 
数据 包 时 ,SYN Cookie 会 为 每 个 SYN 包 计算 出 相应 的 ISN 值 ,并 返回 SYN 十 ACK 包 , 而 
在 本 地 将 不 分 配 存储 空间 ,开启 重 传 定时 器 等 操作 ,因此 不 会 大 量 消耗 系统 资源 。 
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若 攻 击 者 试图 仿造 大 量 的 ACK 数据 包 迷 惑 Cookie 机 制 ,但 是 由 于 其 无 法 获知 在 计算 
Cookie 时 所 需要 的 变量 count 和 data( 参 见 函数 secure_tcp_syn_cookie()) ,其 仿造 的 ACK 
数据 包 必然 会 被 Cookie 检测 机 制 识别 ,系统 也 不 会 为 这 样 的 无 效 ACK 数据 包 分 配 任何 存 
储 空 间 , 从 而 达到 防御 SYN Flood 的 作用 。 

读者 也 许 会 产生 疑问 : 如 果 攻 击 者 监控 系统 发 送 的 SYN 十 ACK 数据 包 , 进 而 生成 正确 
的 ACK ,不 就 可 以 成 功 攻击 了 么 ?答案 的 确 如 此 。 但 是 针对 拒绝 服务 攻击 的 攻防 其 实 本 质 
上 就 是 攻防 双方 进行 消耗 系统 资源 的 博弈 ,对 基于 SYN Cookie 的 TCP 协议 栈 进行 攻击 ， 
攻击 者 为 了 消耗 被 攻击 者 一 个 单位 系统 资源 所 需要 消耗 的 本 地 资源 与 攻击 普通 TCP 协议 
栈 主 机 达到 相同 效果 所 消耗 的 本 地 资源 相 比 大 幅度 提升 ,这 样 对 SYN 攻击 的 防御 就 取得 
了 成 功 。 


2. SYN Cookie 防火 墙 介绍 


此 外 ,基于 SYN Cookie 原理 开发 的 SYN Cookie Firewall, 也 可 以 对 SYN 攻击 进行 有 
效 防护 ,其 原理 是 通过 在 内 网 和 外 网 之 间 实 现 TCP 三 次 握手 过 程 的 代理 来 对 内 网 主机 进行 
保护 ,其 工作 原理 如 图 12-11 所 示 。 


服务 器 


SYN+ACK(seq = c, ack= r+1) 


ACK (seq =r+1, ack = c1) 


SYN+ACK (seq = c;, ack= r+1) 


ACK (seq =r+1, ack = c;+1) 


12-11 SYN Cookie 防火 墙 工 作 原 理 图 


在 防火 墙 收 到 来 自 外 网 的 SYN 包 时 , 它 并 不 直接 进行 转发 ,而 是 缓存 在 本 地 ,再 按照 
原来 SYN Cookie 的 机 制 生成 一 个 针对 此 SYN fff SYN+ ACK 包 , 并 按照 上 文 介绍 的 算 
法 生成 该 包 的 cookie 值 并 写 人 其 SEQ 顺序 号 中 ,并 将 该 包 的 源 地 址 改写 为 服务 器 的 地 址 。 
客户 端 接收 到 这 个 SYN 十 ACK 包 后 ,发送 ACK 响应 包 ,并 认为 与 服务 器 的 TCP 连接 已 经 
建立 起 来 。 防 火 墙 收 到 此 包 后 ,按照 前 面 描述 的 SYN Cookie 原理 来 检查 这 个 包 中 的 ACK 


$123 Linux 内 核 网 络 协议 栈 加 固 


顺序 号 验证 其 合法 性 。 如 果 该 数据 包 通 过 验证 ,防火 墙 就 将 本 地 缓存 的 来 自 客户 端的 SYN 
包 发 送 给 服务 器 ,这 时 服务 器 会 响应 一 个 SYN 十 ACK 包 , 当然 这 个 包 不 会 到 达 客 户 端 ,而 
是 由 防火 墙 截取 ,防火 墙 会 根据 这 个 包 中 的 包头 信息 ,伪造 一 个 来 自 客户 端的 ACK 包 响 应 
到 服务 器 。 至 此 服务 器 认为 已 经 成 功 和 客户 端 建立 了 连接 ,两 端 开 始 进 行 数据 传输 。 

如 图 12-11 所 示 ,这 里 需要 注意 的 是 .防火墙 产生 的 SYN+ ACK 包 的 Seq 序列 号 
可 能 和 服务 端 产 生 的 该 序列 号 不 一 致 (图 中 显示 分 别 为 c 和 c, ) ,这 就 需要 防火 墙 在 每 
次 转发 两 者 之 间 数 据 包 的 时 候 对 该 值 进行 更 改 ( 改 动 大 小 为 c— c) ,以 确保 该 TCP £ 
接 的 正常 运行 。 
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利用 Sendmail 实 现 垃圾 邮件 
过 滤 的 软件 编程 


13.1 编程 训练 目的 


电子 邮件 服务 是 Internet 应 用 最 广泛 的 服务 类 型 之 一 , 它 的 出 现 极 大 地 改变 了 人 们 的 
交流 方式 。 利 用 电子 邮件 ,用 户 之 间 不 但 能 够 以 非常 低廉 的 费用 快速 传递 文本 信息 ,而 且 能 
够 快速 传递 图 像 .音频 和 视频 等 多 媒体 信息 。 但 是 , 随 着 电子 邮件 应 用 的 深入 ,垃圾 邮件 日 
趋 泛 小。 大量 的 垃圾 邮件 不 仅 增加 了 网 络 的 负担 ,更 为 诈骗 ,病毒 攻击 等 行为 提供 了 方便 条 
件 。 因 此 ,掌握 电子 邮件 相关 的 软件 编程 技术 和 基本 的 垃圾 邮件 过 滤 技术 ,对 于 软件 编程 人 
REREH, 

本 章 将 利用 Sendmail 邮件 服务 器 的 milter 接口 实现 简单 的 垃圾 邮件 过 滤 功 能 ,帮助 读 
者 更 好 地 了 解 电子 邮 件 服务 的 工作 流程 ,掌握 电子 邮件 的 体系 结构 .SMTP 协议 及 相关 协 
议 的 基本 原理 ,掌握 Linux/UNIX 环境 下 垃圾 邮件 过 滤 软 件 编程 的 基本 思路 和 方法 。 


13.2 编程 训练 要 求 


Sendmail 邮件 服务 器 在 邮件 收发 的 各 个 阶段 会 调用 所 对 应 的 回调 函数 ,并 根据 函数 的 
返回 值 向 客户 MTA 发 送 不 同 的 响应 命令 。 本 编程 训练 要 求 利 用 Sendmail 邮件 服务 器 的 
milter 接口 实现 所 需要 的 回调 函数 ,具体 要 求 如 下 : 

COD 黑 名 单 功能 : 如 果 邮 件 发 送 方 在 黑 名 单 内 , 则 拒绝 接收 或 转发 该 邮件 。 

(2) 白 名 单 功 能 : 如 果 邮 件 发 送 方 在 白 名 单 内 , 则 允许 接收 或 转发 该 邮件 。 

(3) 关键 字 过 滤 : 如 果 邮 件 发 送 方 既 不 在 黑 名 单 内 也 不 在 白 名 单 内 , 则 检查 邮件 的 内 
容 是 否 包含 被 过 滤 的 一 些 关键 字 。 如 果 含 有 这 些 信息 , 则 认为 该 邮件 是 非法 的 ,拒绝 接收 或 
转发 ;否则 ,允许 接收 或 转发 该 邮件 。 


13.3 ”相关 知识 


13.3.1 Internet 邮件 的 传输 过 程 


图 13-1 给 出 了 用 户 A 向 用 户 B 发 送 电子 邮件 的 简化 过 程 示意 图 。 将 邮件 报 文 从 用 户 
A 发送 到 用 户 B 的 步骤 如 下 : 
CD 利用 主机 A 上 的 邮件 客户 软件 ,用 户 A 将 写 好 的 一 封 给 用 户 B 的 邮件 报 文 发 送 到 
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生生 


SMTP SMTP 
服务 器 A od 

p lo 

SS $ 
主机 A DNS £f: DNS 系统 


13-1 简化 的 Internet 邮件 传输 过 程 示意 图 


他 所 注册 的 SMTP 服务 器 A。SMTP 服务 器 A 接收 并 存储 该 报 文 ,同时 通知 用 户 A 邮件 
报 文 已 经 成 功 地 发 送 了 。 

(2) SMTP 服务 器 A 向 DNS 系统 查询 与 接收 邮箱 地 址 有 关 的 邮件 交换 资源 记录 (MX 
记录 ),DNS 系统 返回 应 接收 该 邮件 的 邮件 服务 器 是 SMTP 服务 器 B 的 查询 结果 。 如 果 查 
询 返 回 的 MX 记录 中 给 出 两 个 邮件 交换 系统 , 则 选用 级 别 较 高 的 交换 系统 。 

(3) SMTP 服务 器 A 使 用 TCP 协议 与 SMTP 服务 器 B 建立 一 个 SMTP 会 话 ,然后 将 
邮件 发 送 给 SMTP 服务 器 B。 这 里 ,SMTP 服务 器 A 以 一 个 SMTP 客户 的 身份 出 现 , 而 
SMTP 服务 器 B 则 作为 一 个 服务 器 来 使 用 。 一 旦 报 文 到 达 SMTP 服务 器 B, 则 服务 器 B 就 
把 它 保存 在 本 地 邮件 存储 区 中 。 

(4) SMTP 服务 器 BB 判断 接收 邮件 的 用 户 是 否 为 本 地 注册 用 户 ,如果 不 是 , 则 需要 继续 
转发 ,其 过 程 与 步骤 (3) 类 似 。 

C5) 利用 主机 B 中 的 电子 邮件 客户 端 软 件 ,用 户 B 从 SMTP 服务 器 B 中 下 载 并 阅读 邮件 。 


13.3.2 邮件 传递 的 3 个 阶段 


在 Internet 中 ,邮件 从 发 送 端 到 接收 端的 传递 过 程 可 以 分 为 以 下 3 个 阶段 ,图 13-2 给 
出 了 传递 过 程 示意 图 。 


1 阶段 第 2 阶段 第 3 阶段 
人 2a ( SMTP ) | 由 件 存 取 协 议 ) | 


= 
Sig c gs 
9 邮件 服务 器 邮件 服务 器 


用 户 计算 机 用 户 计算 机 
SMTP | SMTP SMTP 
客户 服务 器 服务 器 
m 
读 取 邮 件 


图 13-2 邮件 传递 过 程 示意 图 
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CD 在 第 1 阶段 ,邮件 报 文 从 用 户 代理 传送 到 本 地 服务 器 。 用 户 使 用 的 是 SMTP 客户 
程序 ,服务 器 使 用 的 是 SMTP 服务 器 程序 ,邮件 报 文 存放 在 本 地 服务 器 中 。 

(2) 在 第 2 阶段 ,本 地 邮件 服务 器 作为 SMTP 客户 将 邮件 转发 给 作为 SMTP 服务 器 的 
远程 服务 器 ,直至 到 达 目 的 地 址 所 在 的 服务 器 。 最 终 的 邮件 服务 器 将 邮件 报 文 存放 到 用 户 
的 个 人 邮箱 中 ,等 待 用 户 读 取 。 

(3) 在 第 3 阶段 ,接收 邮件 的 用 户 通过 远程 用 户 代理 ,使 用 POP3 R IMAP 对 个 人 邮箱 
进行 访问 , 读 取 邮件 报 文 。 


13.3.3 SMTP 协议 


在 TCP/IP 协议 族 中 ,支持 Internet 电子 邮件 服务 的 基本 协议 是 简单 邮件 传输 协议 
(Simple Mail Transfer Protocol,SMTP)。SMTP 邮件 传输 协议 为 主机 与 邮件 服务 器 (以 及 
邮件 服务 器 与 邮件 服务 器 ) 之 间 进 行 通信 定义 了 各 种 通信 命令 及 应 答 规 则 ,其 基本 内 容 包 括 
在 RFC821 与 RFC2821 中 。 


1. SMTP 命令 和 应 答 


SMTP 利用 一 些 命令 和 应 答 在 MTA 客户 和 MTA 服务 器 之 间 传 输 报 文 。 图 13-3 给 
IHT SMTP 的 命令 和 响应 的 关系 示意 图 。 表 013-1 和 表 13-2 分 别 给 出 了 SMTP 的 主要 命 
令 和 应 答 的 意义 。 


命令 
MA [———— ——4 — MTA 
客户 |a 响应 | 服务 器 


图 13-3. SMTP 的 命令 和 响应 示意 图 


R 13-1 SMTP 的 主要 命令 


关键 isj 参数 及 说 明 关键 词 参数 及 说 明 
HELO 发 送 端的 主机 名 RSET 中 止 当 前 的 邮件 处 理 
MAIL FROM 发 信人 VRFY 需要 验证 的 收 信人 的 名 字 
RCPT TO 预期 的 收 件 人 EXPN 需要 扩展 的 邮件 发 送 清单 
DATA 邮件 的 主体 HELP 命令 名 
QUIT 结束 会 话 SEND FROM 预期 的 收 信人 


X132 SMTP 的 主要 应 答 


代码 说 “H 代码 说 明 

220 服务 就 绪 450 邮箱 不 可 使 用 

221 服务 关闭 传输 通道 500 语法 错 , 不 能 识别 命令 

250 请 求 命令 完成 502 命令 未 实现 

251 用 户 不 是 本 地 的 , 报 文 将 被 转发 552 | 所 请 求 的 动作 异常 终止 ,超过 存储 位 置 
354 开始 邮件 输入 553 所 请 求 的 动作 未 发 生 ,邮箱 名 不 允许 使 用 
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2. SMTP 协议 的 客户 端 与 服务 器 端的 交换 过 程 


SMTP 协议 的 客户 端 与 服务 器 端的 交换 过 程 可 以 分 为 3 个 阶段 : 连接 建立 .邮件 传送 
和 连接 终止 。 
连接 建立 的 大 致 过 程 如 图 13-4 Bron o 


MTA MTA 
客户 服务 器 
220, 服务 就 绪 

HELO: nankai.edu.cn ——- 


250, OK = sl 


13-44 连接 建立 过 程 示意 图 


(1) 客户 端 使 用 TCP 协议 与 服务 器 的 25 端口 建立 连接 ,SMTP 服务 器 进行 响应 。 如 
果 SMTP 服务 器 接受 客户 端的 连接 请 求 , 则 将 向 SMTP 客户 端 回 送 应 答 码 “220”, 表 示 该 服 
务 器 可 以 提供 SMTP 服务 。 

(2) 客户 端 收 到 应 答 码 后 ,通过 发 送 *HELO?” 命 令 启动 客户 端 与 服务 器 之 间 的 会 话 。 
“HELO” 命 令 用 来 向 服务 器 端 提供 客户 的 标识 信息 并 请 求 SMTP 服务 器 提供 邮件 服务 。 
此 时 ,服务 器 端 将 回 送 应 答 码 *250”, 表 示 客 户 端 请 求 建立 的 邮件 服务 会 话 已 经 实现 。 

TE SMTP 客户 与 SMTP 服务 器 之 间 的 连接 建立 之 后 ,客户 端 就 可 以 向 服务 器 发 送 邮件 
报 文 了 。 其 过 程 如 图 13-5 所 示 。 

CD 客户 端 使 用 “MAIL FROM: Sender@nku. cn” 向 服务 器 报告 发 信人 的 邮箱 与 域名 。 

(2) 服务 器 端 利用 *250”( 请 求 命令 完成 ) 进 行 响应 。 

G) 客户 端 使 用 *RCPT TO” 命 令 向 服务 器 报告 收 信人 的 邮箱 与 域名 。 

(4) 服务 器 端 发 送 “250”( 请 求 命令 完成 ) 进 行 响应 。 

(5) 客户 端 利用 “DATA” 命 令 对 报 文 的 传送 进行 初始 化 。 

(6) 服务 器 端 回 送 “354”( 开 始 邮件 输入 ) 进 行 响应 。 

(7) 客户 端 向 服务 器 发 送 邮件 报 文 内 容 。 甚 中 只 有 ”*. ”的 行 表示 报 文 内 容 结 束 。 

(8) 服务 器 端 使 用 *250?( 请 求 命令 完成 ) 进 行 响应 。 

客户 端 在 完成 一 次 邮件 报 文 的 传输 过 程 中 始终 起 控制 作用 。 报 文 发 送 完毕 后 会 终止 
SMTP 会 话 过 程 (如 图 13-6 所 示 ) 。 


13.3.4 邮件 报 文 格式 


Internet 电子 邮件 报 文 格式 应 遵循 RFC822 和 MIME 规范 。 其 中 ,RFC822 是 最 基本 
的 格式 规范 ,而 MIME 则 是 对 RFC822 的 扩充 。 
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MTA MTA 
客户 服务 器 


I—] Mail From: sender@nankaiedu.cn =| Í 
一 250, OK. 
RCPT To: receiver(@ sendmail.com. 


- 250, OK H 


DATA 


r1 354, start mail input 


From: Sender's Name 
r1 To: Receiver's Name H 
Subject: Mail Example ! 
i gi 
=| Line 1 of the body H d 
A Line 2 of the body H 


H Last line ofthe body 上 -| 


[| 250, OK 


E 13-5 报 文 传送 过 程 示意 图 


MTA MTA 
客户 服务 器 
QUIT ——- 


~ 一 一 221, 关 闭 服务 


13-6 连接 终止 过 程 示意 图 


RFC822 格式 规范 的 主要 特点 如 下 : 

CD 所 有 报 文 全 部 由 ASCH 码 组 成 。 

(2) 报 文 由 报 文 行 组 成 ,各 行 之 间 用 回 车 (CR) 与 换行 (LF) 符 分 隔 。 

(3) 报 文中 可 包含 多 个 报头 字段 和 报头 内 容 。 

(4) 报 文 可 包括 跟随 在 报头 后 的 报 文体 。 如 果 报 文中 含有 报 文体 , 则 报 文体 必须 用 一 
个 空 行 与 报头 分 隔 。 
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由 于 RFC822 只 能 发 送 包含 ASCI 字符 的 文本 邮件 ,不 支持 语音 、 视 频 等 多 媒体 邮件 ， 
因此 具有 一 定 的 局 限 性 。 为 了 能 使 电子 邮件 系统 传递 多 媒体 等 二 进 制 邮件 ,1993 年 提出 了 
一 种 Internet 邮件 扩展 协议 MIME (Multipurpose Internet Mail Extension) 。MIME 是 对 
RFC822 的 补充 ,本 身 并 不 能 代替 RFC822。 

在 发 送 端 , MIME 对 非 ASCII 码 格式 的 数据 重新 进行 编码 ,其 中 编码 方式 支持 
Base64 ,7 bit, 8bit, Quoted-printable, Binary 等 标准 。 然 后 ,将 编码 后 的 数据 通过 邮件 传 
输 代理 MTA 发 送出 去 。 在 接收 端 ,SMTP 服务 器 接收 编码 后 的 数据 ,然后 由 MIME 还 
原 成 用 户 发 送 的 原始 数据 。 由 此 可 见 , MIME 是 一 个 格式 转换 标准 ,符合 MIME 规范 
的 软件 能 够 将 多 媒体 等 非 ASCI 码 格式 的 数据 转换 成 ASCI 码 格式 。 

MIME 定义 了 5 种 邮件 首部 ,用 来 扩充 原 有 的 RFC822。 这 5 种 首部 是 MIME-version 
(MIME 版 本 ) content-type (内 容 类 型 , content-transfer-encoding (内 容 传 输 编 码 )、 
content-ID( 内 容 标识 ) 与 content-description( 内 容 -描述 ) 。 与 MIME 协议 相关 的 RFC 文档 
包括 RFC2045—RFC2049 等 5 个 ,读者 可 根据 需要 自行 查阅 。 


13.3.5 POP3 5 IMAP 协议 


在 邮件 传递 的 3 个 阶段 中 ,前 两 个 阶段 都 采用 了 SMTP 协议 。 但 是 ,在 第 3 个 阶段 ， 
Internet 邮件 系统 并 未 采用 SMTP 协议 。 第 3 个 阶段 不 采用 SMTP 的 主要 原因 是 SMTP 
协议 采取 “push” 策 略 将 邮件 报 文 “ 推 送 " 到 服务 器 端 。 而 在 接收 端 ,由 于 用 户主 机 的 开机 状 
态 不 能 保证 ,因此 ,“ 推 送 " 策 略 并 不 是 最 好 的 。 为 此 ,Internet 邮件 系统 在 第 3 阶段 采取 了 
“pull( 拉 )” 的 方式 ,用 户 在 需要 的 时 候 主动 从 本 地 的 邮件 服务 器 下 载 自己 的 邮件 。 

从 本 地 邮件 服务 器 下 载 和 读 取 邮 件 的 协议 主要 包括 第 3 版 邮局 协议 POP3(Post Office 
Protocol Version 3) 与 互联 网 消息 访问 协议 IMAP(Internet Message Access Protocol 。 


1. POP3 协议 


POP3 协议 提供 了 一 种 将 存储 在 本 地 SMTP 服务 器 中 的 邮件 传递 到 用 户 的 机 制 ,其 相 
关 的 RFC 文档 包括 1939 和 RFC2449 等 。 

POP 的 会 话 格式 与 SMTP 类 似 ,其 通信 过 程 大 致 可 以 描述 为 : 当 客户 需要 从 邮件 
服务 器 中 下 载 邮件 时 ,客户 端 使 用 TCP 协议 与 服务 器 的 110 端口 建立 连接 。 用 户 向 服 
务 器 发 送 用 户 名 和 口令 。 在 验证 合法 之 后 ,用 户 端 即 可 以 列 出 邮件 清单 并 能 够 逐个 读 
取 邮 件 。 

POP 协议 有 两 种 工作 模式 : 删除 模式 与 保留 模式 。 在 读 取 邮 件 之 后 ,删除 模式 把 读 过 
的 邮件 删除 ,而 保留 模式 仍 将 读 过 的 邮件 保存 在 服务 器 中 。 


2. IMAP4 协议 


IMAP 的 功能 比 POP3 更 加 强大 ,同时 也 更 为 复杂 。 与 IMAP 相关 的 RFC 文档 
为 RFC2060。 

与 POP3 协议 相 比 ,IMAP4 协议 在 以 下 5 个 方面 进行 了 增强 : 

(1) 用 户 在 下 载 邮件 之 前 可 以 检查 邮件 的 首部 。 

(2) 用 户 在 下 载 邮件 之 前 可 以 用 特定 的 字符 串 搜索 电子 邮件 的 内 容 。 
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(3) 用 户 可 以 部 分 地 下 载 电 子 邮件 。 
(4) 用 户 可 以 在 邮件 服务 器 上 创建 、 删 除 邮箱 或 对 邮箱 更 名 。 
(5) 为 了 存放 电子 邮件 ,用 户 可 以 在 文件 夹 中 创建 分 层次 的 邮箱 。 


13.3.6 Sendmail 简介 


Sendmail 是 Linux/UNIX 环境 下 应 用 最 广泛 的 邮件 服务 程序 之 一 , 它 遵循 SMTP Bh 
议 ,能 够 完成 邮件 的 转发 等 功能 。 与 此 同时 ,Sendmail 还 提供 了 一 套 * 内 容 管理 API”, 即 
milter。milter 允许 第 3 方程 序 在 MTA 处 理 邮 件 时 ,对 邮件 的 内 容 进 行 检查 甚至 修改 ,而 
Sendmail 则 会 根据 第 3 方程 序 的 返回 值 对 MTA 客户 做 出 响应 。 因 此 ,milter 在 垃圾 邮件 
过 滤 , 病 毒 检测 以 及 内 容 控制 等 方面 都 起 着 重要 作用 。 

milter 提供 的 接口 可 以 分 为 5 类 ,分 别 是 控制 函数 ,数据 访问 函数 ,信息 修改 函数 、 其 他 
句柄 函数 和 回调 函数 。 


1. 控制 函数 
控制 函数 及 其 功能 描述 如 表 13-3 Bron o 
表 13-3 milter 的 控制 函数 


函 数 功能 描述 [NE 功能 描述 
smfi_opensocket 打开 socket 接口 smfi_setbacklog 定义 监听 队列 大 小 
smfi_register 注册 一 个 过 滤器 smfi_setdbg 定义 milter 库 的 调试 级 别 
smfi_setconn 指定 所 用 的 socket smfi_stop 按 顺 序 关闭 milter 
smfi_settimeout 设置 超时 时 间 smfi_main libmilter 主 控 函 数 

2. 数据 访问 函数 


数据 访问 函数 及 其 功能 描述 如 表 13-4 所 示 。 
R 13-4 milter 的 数据 访问 函数 


mox 功能 描述 K 数 功能 描述 
smfi_getsymval 取得 Sendmail 的 宏 值 smfi_setreply 设置 SMTP 的 错误 信息 返回 码 
smfi_getpriv 取得 私有 数据 指针 smfi_setmlreply re METER 
smfi setpriv 设置 私有 数据 指针 
a 22 cR aie inii o u ————— 


3. 信息 修改 函数 


每 个 过 滤器 必须 设置 相应 的 标记 ,并 将 其 传递 给 smfi_register 之 后 才能 调用 相应 的 信 
息 修改 函数 。 和 否则 ,MTA 将 认为 回调 函数 发 生 错 误 并 中 止 与 过 滤器 的 连接 。 信 息 修 改 函 
数 及 其 功能 描述 如 表 13-5 所 示 。 
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表 13-5 milter 的 信息 修改 函数 


BOX 功能 描述 需要 设置 的 SMFIF_* flag 
smfi_addheader 为 消息 添加 头 信息 SMFIF_ADDHDRS 
smfi chgheader 修改 或 删除 消息 的 头 信息 SMFIF_CHGHDRS 
smfi_insheader 插入 消息 头 信息 SMFIF. ADDHDRS 
smfi addrcpt 增加 一 个 收 件 人 SMFIF_ADDRCPT 
smfi_delrcpt 删除 一 个 收 件 人 SMFIF_DELRCPT 
smfi_replacebody 替换 消息 内 容 SMFIF_CHGBODY 


4. 其 他 句柄 函数 


其 他 句柄 函数 及 其 功能 描述 如 表 13-6 所 示 。 
表 13-6 milter 的 句柄 函数 


BR 


数 


J 能 描 jË 


smfi_progress 


通知 MTA 过 滤器 仍 在 处 理 邮件 


smfi_quarantine 


5. 回调 函数 


隔离 一 封 邮件 ,需要 原因 


milter 回调 函数 主要 用 于 在 SMTP 的 传输 过 程 中 实现 回调 , 它 使 用 smfi_register 进行 
注册 。 在 SMTP 会 话 的 各 个 阶段 ,我 们 都 可 以 通过 回调 函数 方便 地 实现 对 邮件 的 任意 操 
作 , 如 接受 拒绝、 丢弃 、 暂 时 拒绝 及 修改 邮件 信息 等 。 垃 圾 邮件 处 理 程序 可 以 利用 milter 
的 回调 功能 实现 对 邮件 内 容 的 识别 和 过 滤 。SMTP 与 Milter 的 调用 关系 如 图 13-7 所 示 。 
K 13-7 给 出 了 SMTP 事务 与 回调 函数 的 一 一 对 应 关系 , 表 13-8 给 出 了 回调 函数 的 返回 值 


及 其 意义 描述 。 
SMTP 
Commands/Replies 
HELO 
MAIL 
| os — O—]—4 xxfi envfrom. | MAIL FROM 之 后 调用 
RCPT 
NE oJ 一 和 xxfi_envrcpt | RCPT 之 后 调用 
D, 
Cn PN [27] 每 个 标题 之 后 调用 
cac xxfi_eoh 所 有 标题 之 后 调用 
j] o xxfi body | 每 个 邮件 信 体 块 之 后 调用 
xxfi eom 邮件 内 容 发 送 结束 后 调用 
MTA Sendmail Milter 


13-7 SMTP 各 阶段 对 应 的 milter 函数 的 示意 图 
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X137 SMP 事务 与 回调 函数 的 对 应 关系 


SMTP 命令 milter 回调 函数 SMTP 命令 milter 回调 函数 
(open SMTP connection) xxfi connect DATA xxfi header 
Header:... 

HELO... xxfi helo [more headers] Di header] 
xxfi eoh 

MAIL From:... xxfi envfrom body... xxfi body 

RCPT To;... xxfi envrcpt [more body... ] [edi body] 
xxfi eom 

i QUIT " 
[more RCPTs] [xxfi_envrcpt] (dose SMTP casco) xxfi close 


返回 值 


表 13-8 milter 回调 函数 的 返回 值 
描 Ë 


SMFIS CONTINUE 


继续 下 一 步 操作 


SMFIS REJECT 


对 面向 连接 的 程序 接口 ,拒绝 本 次 连接 并 调用 xfi. close 
对 面向 消息 的 程序 接口 ( 除 xfi. eom 和 xxfi_abort 之 外 ) ,拒绝 这 个 邮件 
对 面向 接收 者 的 程序 接口 ,拒绝 当前 接收 者 (但 是 继续 传送 本 邮件 ) 


SMFIS_DISCARD 


对 面向 消息 和 接收 者 的 程序 接口 ,接收 这 个 邮件 ,但 悄悄 地 丢弃 它 ( 不 通知 发 信人 ) 
在 面向 连接 的 程序 接口 中 不 能 把 它 作为 返回 值 


SMFIS_ACCEPT 


对 面向 连接 的 程序 接口 ,接收 本 次 连接 ,不 再 进行 后 面 的 过 滤 , 并 且 调 用 xxfi 
_close 


对 面向 消息 和 接收 者 的 程序 接口 ,接收 本 邮件 且 不 再 进行 后 面 的 过 滤 


SMFIS TEMPFAIL 


返回 一 个 临时 的 失败 标记 ,比如 SMTP 将 应 答 一 个 4xx 的 代码 ,表明 临时 的 失败 
对 面向 消息 的 程序 接口 (除了 xxfi_envfrom 之 外 ) ,消息 传送 失败 

对 面向 连接 的 程序 接口 ,连接 失败 并 调用 xxfi_close 

对 面向 接收 者 的 程序 接口 , 仅 对 当前 用 户 失 败 ,邮件 继续 传送 


13.4 ”编程 训练 设计 分 析 


13.4.1 程序 的 流程 


本 节 将 利用 Sendmail 提供 的 milter 回调 函数 对 接收 到 的 邮件 进行 黑 / 白 名 单 过 滤 和 正 
文 关键 字 过 滤 。 程 序 的 主要 流程 如 下 (如 图 13-8 所 示 ): 

(1) 开始 接收 邮件 。 

(2) 检查 发 信人 是 否 在 黑 名 单 内 ,如 果 是 , 则 拒绝 处 理 该 邮件 ;和 否则 继续 向 下 处 理 。 

(3) 检查 发 信人 是 否 在 白 名单 内 ,如 果 是 , 则 接受 该 邮件 ;否则 继续 向 下 处 理 。 

(4) 如 果 发 信人 既 不 在 黑 名 单 内 ,又 不 在 白 名 单 内 , 则 对 邮件 的 内 容 进行 关键 字 过 滤 。 
如 果 邮 件 中 含有 被 过 滤 的 关键 词 信息 . 则 拒绝 该 邮件 ;否则 接收 该 邮件 。 
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开始 接收 邮件 


发 信人 在 黑 名 单 内 吗 ? 
N 


拒绝 该 邮件 


13.4.2 程序 的 关键 代码 分 析 


1. 为 每 一 个 SMTP 连接 指定 私有 数据 


在 处 理 每 一 封 邮 件 的 过 程 中 ,Sendmail 都 会 创建 一 个 SMTP 连接 ,我 们 可 以 为 需要 使 
用 的 每 个 连接 指定 一 个 私有 数据 。 私 有 数据 类 型 的 定义 如 下 : 


// 为 每 一 个 连接 定义 一 个 私有 数据 类 型 ,用 来 标识 该 连接 所 处 理 的 邮件 


接受 该 邮件 


图 13-8 程序 的 流程 示意 图 


typedef struct 
t 
bool inWhitelist; // 如 果 邮 件 发 送 方 在 白 名 单 内 , 则 该 值 为 TROE; 否 则 为 FALE 
bool irBlacklist; // 如 果 邮 件 发 送 方 在 黑 名 单 内 , 则 该 值 为 TROE; 否 则 为 FALE 
) mfipriv; 


由 上 面 关于 milter 回调 函数 的 介绍 可 知 , 当 建 立 SMTP 连接 时 ,milter 回调 函数 中 的 
xxfi_connect 将 会 被 调用 。 因 此 ,可 以 通过 该 函数 将 上 面 定义 的 私有 数据 指定 给 当前 的 
SMTP 连接 。 如 果 执 行 成 功 , 则 返回 SMFIS_CONTINUE,Sendmail 继续 对 邮件 进行 处 理 ; 
否则 返回 SMFIS_TEMPFAIL,Sendmail 向 MTA 客户 发 送 一 个 临时 的 错误 信号 。 主 要 程 
序 代码 如 下 所 示 : 


// 当 客户 MA 和 服务 端 MA 建立 srP 连 接 时 ,该 函数 被 调用 
sfsistat 
mifi connect (ctx, hostname, hostaddr) 

SMFICIX* ctx; 
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char* hostname; 
SOK ADDR* hostaddr; 


// 定 义 一 个 私有 数据 的 指针 ,并 为 其 分 配 内 存 空 间 
struct mlfiPriv* priv; 
priv- (struct mlfipriv* )malloc(sizeof* priv); 


// 如 果 分 配 内 存 失败 , 则 返回 一 个 临时 的 错误 ,表示 现在 不 能 进行 处 理 
if(priv-- NULL) 
t 
return SMFIS TEMPFAIL; 
H 
// 如 果 分 配 内 存 成 功 , 则 对 私有 数据 priv 进 行 初始 化 
priv- > inhiteList- FALSE; 
priv- > inBlackList- FALSE; 


/为 当前 连接 保存 私有 数据 
if (smfi setpriv(ctx,priv)--MI SUXESS) 
t 

/ [AER B) F hb RE 


return SMFIS CONTINUE; 


// 返 回 一 个 临时 的 错误 
return SMFIS TEMPFATL; 


) 


2. 黑 名 单 过 滤 部 分 


当 MTA 客户 向 Sendmail 发 送 “MAIL FROM" BJ , Sendmail 将 会 调用 milter 回调 
函数 中 的 xxfi_envfrom。 由 于 “MAIL FROM” 命 令 后 面 跟 有 发 信人 的 地 址 ,因此 可 以 在 函 
数 xxfi_envfrom 中 实现 黑 / 白 名 单 的 过 滤 功 能 。 

如 果 发 信人 地 址 在 黑 名 单 内 , 则 返回 SMFIS_REJECT,Sendmail 拒绝 该 邮件 ;否则 继 
续 向 下 处 理 。 黑 名 单 过 滤 部 分 的 代码 如 下 所 示 : 


/获取 当前 连接 的 私有 数据 的 指针 


struct mlfiPriv* priv=MLFTPRIV; 


// 提 取 邮 件 发 送 方 的 地 址 

charx mail adir-smfi getsymval (ctx, "fmail adir]"); 
FIIE * fp header= fcpen ("header", "w") ; 

fprintf (fp header, "ss",mail addr); 

fclose (fp header); 
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// 读 取 黑 名 单 ,并 判断 当前 的 邮件 发 送 方 是 否 在 黑 名 单 内 


FIIE* fp black- fopen ("blacklist", "r") ; 


// 如 果 成 功 打开 文件 , 则 将 文件 内 被 列 人 黑 名 单 的 地 址 与 当前 发 送 方 的 地 址 进行 比较 
if (fp black!=NULL) 
t 

/声明 一 个 数组 ,来 保存 从 黑 名 单 文件 中 读 取 到 的 地 址 

char black adir[256]; 

memset (black addr,0,256) ; 


/人 从 文件 中 每 次 读 取 一 行 , 同 发 送 方 地 址 进行 比较 
while(fgets (black addr, 256, fp black) !- NULL) 
( 
if(stramp(black addr,mail addr)-- 0) // 如 果 相 等 , 则 拒绝 该 邮件 
j 
/关闭 文件 
fclose(fp black); 


// 拒 绝 该 邮件 


return SMFIS REJECT; 
) 


// 关 闭 文件 
fclose(fp black); 
) 


代码 开始 的 MLFIPRIV ëE X fi] — + 2 . H] 3 RIBUS iii e 32 Bir J8 ¿E DRE C DU 38 
针 , 其 代码 如 下 : 


// 为 函数 smfi_getpriv (ct) E 36— SE ,该 函数 的 作用 是 获取 当前 连接 的 私有 数据 的 指针 
define MFIPRIV — ((struct mlfiPriv* )smfi getpriv(ctx)) 


3. Be S EAD 


如 果 发 信人 地 址 不 在 黑 名 单 内 , 则 检查 其 是 否 在 白 名 单 内 。 如 果 发 信人 地 址 在 白 名 单 
内 , 则 将 私有 数据 部 分 的 inWhiteList 置 为 TRUE; 和 否则 置 为 FALSE。 与 黑 名 单 过 滤 代码 
相同 , 白 名 单 过 滤 部 分 的 代码 也 需要 在 milter 的 回调 函数 xxfi_envfrom 中 实现 。 具 体 代 码 
如 下 : 

// 如 果 发 送 方 不 在 黑 名 单 内 , 则 继续 读 取 白 名 单 ,并 判断 当前 邮件 的 发 送 方 是 否 在 白 名 单 内 


FIE* fp white= fopen ("Whitelist","r"); 


// 如 果 成 功 打开 文件 , 则 将 文件 内 被 列 人 白 名 单 的 地 址 与 当前 发 送 方 的 地 址 进行 比较 
if (fp whitel- NULL) 
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/声明 一 个 数组 ,来 保存 从 白 名 单 文件 中 读 取 到 的 地 址 
char white addr[256]; 
memset (white addr,0,256); 


// 从 文件 中 每 次 读 取 一 行 , 同 发 送 方 地 址 进行 比较 
while (fgets (white ackir,256, fp white)!- NULL) 
{ 
if(stram(white addr,mail addr)==0) // 如 果 相 等 , 则 修改 私有 数据 的 相关 内 容 
{ 
priv- > irhitelist= TRE; 
break; 


} 


// 关 闭 文件 
fclose(fp white); 
} 


// 保 存 私 有 数据 
if(smfi setpriv(ctx,priv)--MI SUXESS) 
{ 

/继续 进行 处 理 

return SMFIS CONTINUE; 


// 返 回 一 个 临时 的 错误 
return SMFIS TEMEFAIL; 
) 


4. 关键 字 过 滤 部 分 


在 回调 函数 xxfi_body 中 ,可 以 获得 邮件 的 正文 。 为 了 进行 关键 字 过 滤 ,首先 需要 对 邮 
件 正文 的 格式 进行 分 析 。 为 了 简单 起 见 , 本 实验 仅 要 求 针 对 text/plain 格式 的 邮件 正文 进 
行 处 理 。 由 于 邮件 正文 通常 经 过 base64 或 quoted-printable 编码 ,因此 ,在 进行 关键 字 过 滤 
之 前 需要 进行 解码 处 理 。 有 关 base64 或 quoted-printable 解码 算法 ,请 读者 自行 查阅 相关 
资料 ,这 里 不 再 给 出 相应 的 代码 示例 。 

在 获得 解码 后 的 正文 之 后 ,需要 在 字符 串 中 查找 是 否 含 有 相应 的 关键 字 。BM 算法 是 
一 种 较为 经 典 和 常用 的 多 关键 字 匹 配 算法 ,由 Bob Boyer #ll J Strother Moore 在 1977 年 提 
出 ,其 主要 特点 是 匹配 速度 快 。 在 下 面 给 出 的 BM 算法 实现 代码 中 ,如 果 找 到 了 相应 的 关键 
字 , 则 返回 它 第 一 次 出 现 的 位 置 ( 偏 移 量 ) ;否则 返回 一 1( 代 码 如 下 所 示 ) 。 


// 功 能 : 检查 正文 串 中 是 否 出 现 了 样本 串 
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/参数 : text 为 正文 串 ;test length 为 正文 串 的 长 度 :Pattern 为 样本 串 „pattem length 为 样本 
// 串 的 长 度 
// 返 回 值 : 如 果 检 索 到 样本 串 , 则 返回 它 在 正文 串 中 的 第 一 次 出 现 位 置 的 下 标 ;否则 返回 -1 
int 
km stringmitch (text,text. length,pattemn,pattern length) 

unsigned char* text; 

int text length; 

unsigned char * pattern; 

int pattern length; 


/定义 变量 ijk 其 中 ion 4 WI FÉ 2 RRE IE c ša rP B fr CB C. 8S PC BOR (9 BO 3 6 
// 示 样本 串 中 正在 进行 匹配 的 字符 的 下 标 六 表示 正文 串 中 正在 进行 匹配 的 字符 的 下 标 

int i,j,k; 

i=pattem length- 1; 


while(i«text length) // 如 果 没 有 到 正文 的 末尾 , 则 继续 匹配 
{ 

j=pattem length- 1; 

k=i; 


// 从 右 向 左 进行 逐 字 符 匹配 
while ((j>=0)&& (pattem[5]- — text [k]) ) 


if(j<0) 

t 
// 如 果 匹 配 成 功 , 则 返回 样本 串 在 正文 中 的 下 标 
return i- pattern lengtht1; 


// 如 果 本 次 匹配 不 成 功 , 则 将 样本 串 右 移 ,并 进行 下 一 次 匹配 
i-itkhm dist(pattem,pattern length,text[k]) ; 


} 


// 如 果 没 有 找到 样本 串 , 则 返回 -1 
returmn- 1; 
i 


其 中 ,bm_dist 函数 用 来 计算 当 一 次 匹配 失败 时 样本 需要 右 移 的 偏 移 量 , 其 代码 如 下 : 
// 功 能 :计算 样本 串 应 该 右 移 的 距离 
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/参数 : pattern 为 样本 串 ;pattem ]length 为 样本 串 的 长 度 :ch 为 匹配 过 程 中 第 一 个 不 相等 的 字符 。 
// 返 回 值 : 样本 串 右 移 的 距离 
int hm dist (pattern,pattern length,dh) 

unsigned char * pattern; 

int pattern length; 

unsigned char ch; 


inti; 
for (i=pattem length- l;i» —-0;i- -) 
t 
if(d-pattem[i]) 
{ 
retum pattern length- i-1; 


retum pattern length; 
) 


5. 主 函 数 的 代码 分 析 


在 主 函 数 中 首先 需要 定义 一 个 结构 体 ,用 于 指定 SMTP 各 个 阶段 所 对 应 的 回调 函数 。 
该 结构 体 将 在 注册 过 滤器 时 被 使 用 。 其 代码 如 下 所 示 : 


struct smfiDesc smfilter= 
í 
"milter", //filter name 
SMEI VERSION, //version oode- - do not change 
SMEIF CHGHIES, 
//£lags 
mlfi connect, //oonnecticn info filter 
mifi helo,//SMTP HEIO cammand filter 
mifi envfram,//envelope sender filter 
mlfi envrcpt, //envelcpe recipient filter 
mlfi header, //heacer filter 
mfi ech, //end of header 
mfi body, //body block filter 
mlfi eam, //end of message 
mfi abort,//message aborted 
mfi close, //oonnecticn cleanup 
mifi unkncwn, //unknown SMIP cammands 
mfi data, //DATA command 
mlfi negotiate //Once,at the start of each SMIP connection 
J 


在 main 函数 内 部 ,需要 对 程序 的 参数 进行 检查 。 如 果 参 数 合法 , 则 创建 SMTP 连接 。 
具体 代码 如 下 : 
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bool setconn= FALSE; 
int c; 

const char * args- "p:"; 
extern char * optarg; 


FAV S ACER CERTE ,如 果 合 法 , 则 创建 Sr 连接 
while((c- getopt (argc, argv, args) ) =—1) 
t 
switch (c) 
t 
Case'p': 
if(optarg- — NULL|| * optarg-— 'N0') 
t 
(void) fprintf (stderr, "Illegal conn: $ sn", optarg) ; 
exit (EX USAGE) ; 
H 
if(smfi setoonn(optarg)- —-MI FAIILFE) 
t 
(void)fprintf(stderr,"smfi setconn failedn"); 
exit (EX SOFIWAFE) ; 
H 
seton TRUE; 
break; 


default: 


usage (argv [0]) : 
exit (EX USE); 


) 


// 如 果 创 建 连接 失败 , 则 输出 提示 信息 ,然后 退出 

if(!setconn) 

t 
fprintf (stderr,"$ s: Missing required - p argument An", argv [0] ; 
usage (argv[0]) ; 
exit (EX USME); 

) 


如 果 连 接 创 建成 功 , 则 注册 过 滤器 ,然后 调用 smfi main AROGE À E TE (RR. 代码 
如 下 : 


// 注 册 过 滤器 

if (smfi register (smfilter)==MI FAILUFE) 

{ 
fprintf (stderr, "smfi register failed\n"); 
exit (EX UNAVATIABIE) ; 
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// 对 libmiter 的 事件 循环 进行 控制 


return mfi main(); 


13.5 扩展 与 提高 


前 边 介 绍 了 几 种 最 基本 的 垃圾 邮件 过 滤 方 法 ,比如 黑 名 单 过 滤 方 法 、. 白 名 单 过 滤 方 法 和 
关键 字 过 滤 方 法 等 。 但 是 这 儿 种 方法 都 属于 静态 的 垃圾 邮件 过 滤 技 术 , 垃 圾 邮件 的 发 送 者 
只 需要 对 邮件 稍 加 变化 就 可 能 使 这 些 过 滤 方 法 失效 。 同 时 ,单纯 依靠 某 几 个 关键 字 判 断 是 
否 为 垃圾 邮件 ,难免 会 产生 误 判 或 者 漏 判 。 比 如 对 于 普通 用 户 来 讲 , 一 封 含有 关键 字 * 发 票 ” 
的 邮件 很 可 能 是 一 封 垃 圾 邮件 ,但 是 在 销售 行业 ,这 样 的 邮件 却 是 很 正常 的 。 那 么 ,有 没有 
办 法 能 根据 邮件 的 整体 状况 进行 更 为 智能 的 判断 呢 ? 有 没有 办 法 让 过 滤 技 术 自 动 学 习 垃圾 
邮件 与 正常 邮件 的 特点 呢 ? 有 没有 办 法 能 针对 不 同 的 用 户 提供 个 性 化 的 定制 方案 呢 ? 为 了 
解决 这 些 问 题 , 人 们 设计 出 了 很 多 算法 ,其 中 应 用 最 为 广泛 的 就 是 贝 叶 斯 算法 。 


13.5.1 贝 叶 斯 算法 


贝 叶 斯 理论 由 英国 数学 家 Thomas Bayes 创立 , 它 的 基本 思想 是 利用 已 经 发 生 的 事件 
预测 未 来 事件 发 生 的 可 能 性 。 贝 叶 斯 理论 假设 : 如 果 事 件 的 结果 不 确定 ,那么 量化 它 的 唯 
一 方法 就 是 事件 的 发 生 概率 ;如 果 过 去 试验 中 事件 的 出 现 概率 已 知 ,那么 就 可 以 用 数学 方法 
计算 出 未 来 试验 中 事件 发 生 的 概率 。 

将 贝 叶 斯 理论 应 用 在 垃圾 邮件 过 滤 技 术 中 ,可 以 得 到 这 样 的 结论 : 如 果 某 些 关键 字 经 
常 出 现在 垃圾 邮件 中 , 却 很 少 出 现在 正常 邮件 中 ,那么 当 收 到 一 封 含有 这 些 关 键 字 的 邮件 
时 , 它 是 垃圾 邮件 的 可 能 性 就 会 很 大 。 

利用 贝 叶 斯 算法 对 垃圾 邮件 进行 过 滤 包 括 两 个 主要 过 程 ,一 是 对 垃圾 邮件 和 正常 邮件 
进行 学 习 , 二 是 根据 学 习 的 结果 对 收 到 的 邮件 进行 分 类 和 过 滤 。 

对 垃圾 邮件 和 正常 邮件 进行 学 习 的 主要 目的 是 为 了 了 解 各 个 关键 字 在 这 两 种 邮件 中 出 
现 的 概率 。 这 一 过 程 包括 以 下 几 个 步骤 。 

(1) 收集 大 量 的 垃圾 邮件 (用 户 不 想 要 的 ) 和 正常 邮件 (用 户 想 要 的 ) ,并 建立 垃圾 邮件 
集 和 正常 邮件 集 。 

(2) 提取 邮件 主题 和 邮件 体 中 的 独立 字符 串 ( 如 ABC, IP 地 址 、 域 名 等 等 ) 作为 
TOKEN f ,并 统计 提取 出 的 TOKEN 串 出 现 的 次 数 ( 即 字 频 )。 使 用 该 方法 对 垃圾 邮件 集 
以 及 正常 邮件 集中 的 所 有 邮件 进行 处 理 。 

G) 每 一 类 邮件 集 对 应 一 个 哈 希 表 ,hashtable_good 对 应 正常 邮件 集 ,hashtable_bad 对 
应 垃圾 邮件 集 ,在 哈 希 表 中 存储 TOKEN 串 到 字 频 的 映射 关系 。 

(4) 计算 每 个 哈 希 表 中 TOKEN 串 出 现 的 概率 , 即 P = 3 TOKEN 串 的 字 频 /对 应 哈 希 
表 的 长 度 。 

G) 综合 考虑 hashtable_good 和 hashtable_bad, 并 判断 当 新 来 的 邮件 出 现 某 个 
TOKEN 串 时 ,该 新 邮件 为 垃圾 邮件 的 概率 。 用 A 事件 表示 收 到 的 新 邮件 为 垃圾 邮件 ,T1、 
T2、…、Tn 代表 不 同 的 TOKEN 串 , 则 P(A|Ti) 就 表示 当 新 邮件 中 出 现 TOKEN 串 Ti ñf. 
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该 邮件 为 垃圾 邮件 的 概率 。 设 P1(Ti) 为 TOKEN 串 Ti 在 hashtable good 中 对 应 的 值 ， 
P2(Ti) 为 TOKEN 串 Ti 在 hashtable bad 中 对 应 的 值 , 则 PCA | TD = P2(Ti)/[ P1 (Ti) 十 
P2(Ti)]。 

(6) 建立 新 的 哈 希 表 hashtable_propability, 表 中 存储 TOKEN 串 Ti 到 P(A|Ti) 的 映 

至 此 ,对 垃圾 邮件 集 和 正常 邮件 集 的 学 习 过 程 结束 。 

当 收 到 一 封 新 的 邮件 时 ,首先 从 邮件 主题 和 邮件 体 中 提取 出 独立 的 字符 串 作 为 
TOKEN 串 ,处 理 过 程 与 上 面 介 绍 的 第 (2) 步 相同 ;然后 在 哈 希 表 hashtable_propability 中 
查找 不 同 的 TOKEN 串 所 对 应 的 键 值 。 

假设 由 新 邮件 中 共 得 到 nA TOKEN 串 ,分 别 记 为 T1、T2、…、Tn, 它 们 在 hashtable_ 
propability 中 对 应 的 值 为 Pl1.P2、…、Pn, 用 P(A|T1,T2,…,Tn) 来 表示 当 邮 件 中 同时 出 
I TOKEN 串 TI, T2, +, Tn 时 ,该 邮件 是 垃圾 邮件 的 概率 , 则 由 复合 概率 公式 可 知 : 
PC(A|T1,T2,--- , Tr) = (P1 * P2  * Pn) / [P1 * P2 * + * Pn+-(1—P1) * (1— P2) * 
…x(1 一 Pn)]。 当 PCAIT1,T2.…,Tn) 超 过 预定 的 阔 值 时 ,就 可 以 判断 该 邮件 是 垃圾 
邮件 。 


13.5.2. 贝 叶 斯 算法 的 优点 


2003 年 5 月 ,BBC 专题 报道 称 贝 叶 斯 过 滤 技 术 可 以 达到 99.7% 的 垃圾 邮件 识别 率 , 同 
时 误 判 率 极 低 , 是 目前 最 为 有 效 的 反 垃 圾 邮件 技术 ,该 算法 具有 以 下 几 方 面 的 优点 。 

(1) 贝 叶 斯 算法 对 邮件 的 所 有 内 容 进 行 分 析 ,而 不 仅仅 针对 其 中 的 某 个 关键 字 , 并 且 它 
能 判别 邮件 是 垃圾 邮件 还 是 正常 邮件 。 例 如 : 包含 “发 票 ” 字 样 的 邮件 不 一 定 就 是 垃圾 邮 
件 ,如 果 采 用 关键 字 过 滤 技 术 , 显 然 难以 达到 理想 的 效果 。 而 使 用 贝 叶 斯 算法 , 既 考虑 了 这 
些 词 在 垃圾 邮件 中 出 现 的 概率 ,同时 又 考虑 了 它 在 正常 邮件 中 出 现 的 概率 ,综合 考虑 这 些 因 
素 才 做 出 判断 ,因此 说 , 贝 叶 斯 算法 具备 一 定 的 智能 。 

(2) 贝 叶 斯 算法 具备 自 适应 功能 。 通 过 学 习 新 的 垃圾 邮件 和 合法 邮件 的 样本 , 贝 叶 斯 
算法 将 能 对 抗 最 新 的 垃圾 邮件 ,并 且 对 变 体 字 有 奇效 。 比 如 ,垃圾 邮件 发 送 者 开始 使 用 "* 发 
* 票 *” 来 代替 “发 票 ”, 这 样 能 够 绕 过 一 般 的 关键 字 检 查 ,除非 “* 发 * 票 x” 也 被 加 到 新 的 关键 字 
中 。 然 而 对 于 贝 叶 斯 算法 , 当 它 发 现 邮 件 中 含有 “x 发 * 票 *”" 时 ,由 于 正常 邮件 中 从 来 没有 发 
现 这 个 词 , 因 此 它 是 垃圾 邮件 的 可 能 性 将 急剧 增加 ,“* 发 * 票 *” 这 个 新 闻 无 疑 成 了 垃圾 邮件 
的 指示 器 。 

(3) 贝 叶 斯 算法 更 加 个 性 化 。 它 能 学 习 并 理解 用 户 对 邮件 的 偏好 。 如 前 所 述 ,“ 发 票 ” 
一 词 对 很 多 人 来 说 都 意味 着 是 垃圾 邮件 ,但 是 对 销售 行业 则 意味 着 是 正常 的 邮件 。 贝 叶 斯 
算法 能 根据 用 户 的 这 种 偏好 进行 处 理 。 

(4) 贝 叶 斯 算法 支持 多 语种 或 者 说 与 编码 无 关 。 对 于 贝 叶 斯 算法 而 言 , 它 分 析 的 是 字 
"B ,无 论 它 是 字 uin) ,符号 还 是 别 的 什么 ,当然 更 与 语言 无 关 。 

(5) 贝 叶 斯 过 滤器 很 难 被 欺骗 。 垃 圾 邮件 发 送 者 一 般 通 过 减少 垃圾 词汇 或 者 在 邮件 中 
多 摊 杂 一 些 好 的 词汇 ,企图 绕 过 一 般 的 邮件 内 容 检查 。 但 由 于 贝 叶 斯 算法 具有 个 性 化 色彩 ， 
要 想 成 功 地 绕 过 贝 叶 斯 的 检查 ,就 不 得 不 对 每 个 收 件 人 的 偏好 进行 研究 ,而 这 几乎 是 不 可 能 
实现 的 。 
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14.1 编程 训练 目的 与 要 求 


基于 特征 代码 的 恶意 代码 检测 系统 是 一 种 对 文件 进行 扫描 检测 判定 是 否 含有 恶意 代码 

的 安全 软件 。 本 章 在 系统 分 析 恶 意 代码 检测 系统 基本 工作 原理 的 基础 上 ,以 基于 特征 检测 
恶意 代码 检测 系统 为 对 象 ,研究 恶意 代码 检测 系统 的 设计 与 软件 编程 方法 。 

本 章 训练 的 主要 目的 是 : 

(1) 掌握 恶意 代码 的 分 类 .主要 文件 格式 和 相关 检测 技术 等 基本 概念 和 背景 知识 。 

(2) 掌握 基于 特征 的 恶意 代码 检测 系统 的 基本 工作 原理 ,设计 与 实现 方法 。 

(3) 掌握 使 用 p3scan 和 Clam AntiVirus 组 建 邮件 病毒 拦截 网 关 的 软件 编程 方法 。 

本 章 训练 要 求 如 下 : 

(1) 学 习 Clam AntiVirus 引擎 的 原理 。 

(2) 对 Clam AntiVirus 引擎 进行 扩展 编程 ,实现 简单 的 基于 特征 码 匹 配 的 恶意 代码 检 
测 程序 。 


14.2 ”相关 背景 知识 
14.2.1 恶意 代码 的 定义 与 分 类 


1. 恶意 代码 的 定义 


1989 年 ,Howard L. Johnson 提出 了 恶意 代码 (Malicious Code) 的 概念 ,他 认为 恶意 代 
码 机 制 包括 改变 保护 、 强 审计 、 代 码 限 制 以 及 异常 的 用 户 和 系统 操作 等 。 恶 意 代码 又 称 为 恶 
意 软件 ,英文 表述 可 以 是 Malicious Software (简称 为 Malware) ,或 者 是 Malicious Code 
(简称 为 Malcode) 。 本 文 统一 使 用 Malware 表示 恶意 代码 。 

20 世纪 90 年 代 末 ,恶意 代码 的 定义 随 着 计算 机 与 网 络 技术 的 发 展 而 逐渐 丰富 。 
Grimes 将 恶意 代码 定义 为 : 经 过 存储 介质 和 网 络 进 行 传播 ,从 一 台 计 算 机 系统 到 另外 一 台 
计算 机 系统 ,未 经 授权 认证 破坏 计算 机 系统 完整 性 的 程序 或 代码 。 其 中 , 非 授 权 性 和 破坏 性 
是 恶意 代码 的 两 个 主要 特点 。J. Bergeron 等 人 将 恶意 代码 定义 为 : 可 以 影响 系统 保密 性 、 
完整 性 数据 和 控制 流 以 及 系统 功能 的 一 组 代码 。Christodorescu 与 Jha 描述 恶意 代码 是 
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具有 恶意 目的 的 程序 。McGraw 5j Morrisett 定义 恶意 代码 是 通过 对 软件 系统 的 增加 、 修 改 
或 者 删除 操作 ,而 有 意 破 坏 或 影响 系统 功能 的 程序 代码 。 微 软 公司 将 恶意 代码 定义 为 : 当 
系统 运行 时 ,达到 攻击 者 故意 破坏 目的 的 软件 。 例 如 计算 机 病毒 .蠕虫 和 木马 等 。 目 前 研究 
人 员 已 经 将 * 凡 是 人 为 编制 的 ,干扰 计算 机 正常 运行 并 造成 计算 机 软 硬 件 故障 ,甚至 破坏 数 
据 的 计算 机 程序 或 指令 集合 ?都 认为 是 恶意 代码 。 本 文 根 据 对 恶意 代码 的 新 特点 和 发 展 趋 
势 的 研究 ,给 出 如 下 恶意 代码 的 定义 : 恶意 代码 是 指 能 够 影响 计算 机 操作 系统 、 应 用 程序 和 
数据 的 完整 性 .可 用 性 、 可 控 性 和 保密 性 的 计算 机 程序 或 代码 。 主 要 包括 计算 机 病毒 .蠕虫 
和 木马 程序 等 。 但 是 ,目前 从 恶意 代码 的 发 展 趋势 来 看 ,计算 机 病毒 .蠕虫 和 木马 程序 在 技 
术 上 正 逐 步 交 叉 .融合 。 


2. 恶意 代码 的 分 类 


恶意 代码 有 多 种 分 类 方法 ,主要 的 分 类 方法 有 两 种 : 按照 恶意 代码 的 加 载 机 制 进行 分 
类 和 按照 恶意 代码 的 传播 特点 进行 分 类 。 

按照 恶意 代码 的 加 载 机 制 可 以 将 其 分 为 两 类 : 自动 加 载 与 人 工 加 载 。 前 者 可 以 随同 正 
常 的 程序 启动 执行 ,或 者 利用 系统 ,程序 等 漏洞 而 获得 加 载运 行 ;后 者 需要 人 工 调用 才能 加 
载 执行 。 

按照 恶意 代码 的 传播 特点 可 以 将 其 分 成 可 自我 复制 和 不 可 自我 复制 两 类 。 前 者 在 程序 
运行 后 具有 连续 自我 复制 能 力 , 可 将 自身 复制 给 其 他 宿主 ;后 者 一 般 不 具有 连续 复制 能 力 ， 
恶意 代码 加 载运 行 后 ,一般 只 完成 自身 的 安装 。 

病毒 .蠕虫 和 木马 的 定义 

(1) 计算 机 病毒 

1994 年 2 月 18 日 ,我 国正 式 颁布 实施 了 (中 华人 民 共 和 国 计 算 机 信息 系统 安全 保护 条 
例 )《 条 例 ) 第 28 条 明确 指出 :“ 计 算 机 病毒 ,是 指 编制 或 者 插入 的 破坏 计算 机 功能 或 者 毁 
坏 数据 ,影响 计算 机 使 用 ,并 能 自我 复制 的 一 组 计算 机 指令 或 者 程序 代码 .此 定义 在 我 国 具 
有 法 律 性 及 权威 性 。 本 文 沿用 此 定义 。 其 中 ,自我 复制 传播 (传染 ) 的 功能 是 计算 机 病毒 的 
主要 特征 ,计算 机 病毒 的 宿主 一 般 是 各 种 可 执行 的 文件 。 

(2) 蠕虫 

蠕虫 是 可 以 通过 网 络 等 途径 将 自身 的 全 部 代码 或 部 分 代码 通过 网 络 复制 ,传播 给 其 他 
网 络 节点 的 程序 。 它 不 同 于 计算 机 病毒 ,不 需要 文件 宿主 。 由 于 蠕虫 是 通过 网 络 进 行 大 量 
复制 传播 的 ,因此 可 造成 网 络 阻塞 ,甚至 瘫痪 。 其 中 比较 典型 的 蠕虫 有 Code Red, Blaster 和 
邮件 蠕虫 Sobig, Mydoom 等 。 

(3) 木马 

特洛伊 木马 (简称 木马 ) 一 词 来 源 于 古 希 腊 神 话 中 希腊 人 使 用 木马 战略 攻陷 特洛伊 城 的 
故事 。 借 用 到 网 络 安 全 技术 中 ,通常 是 指 通 过 伪装 欺骗 手段 诱 使 用 户 激活 自身 ,但 不 具有 复 
制 , 传 播 能 力 的 恶意 程序 。 木 马 可 造 成 计算 机 系统 被 远程 控制 ,下 载 安装 其 他 恶意 代码 , 造 
成 敏感 信息 被 瓷 、 删 除 或 破坏 系统 等 后 果 。 
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14.2.2. 可 执行 文件 结构 介绍 


1. ELF 文件 


可 执行 连接 格式 (Executable and Linking Format,ELF) 文 件 简称 为 ELF ,扩展 名 为 
elf。 可 执行 连接 格式 ELF 是 UNIX 系统 实验 室 (USL) 作为 应 用 程序 二 进 制 接口 
(Application Binary Interface,ABD) 而 开发 和 发 布 的 。 工 具 接口 标准 委员 会 (TIS) 选 择 了 正 
在 发 展 中 的 ELF 标准 作为 工作 在 32 位 Intel 体系 上 不 同 操作 系统 之 间 可 移植 的 二 进 制 文 


件 格式 。 可 以 从 两 个 方面 ( 即 两 个 视图 ) 对 ELF 
文件 结构 进行 分 析 , 一 个 是 装载 运行 角度 , 另 一 
个 是 连接 角度 。ELF 文件 格式 结构 如 图 14-1 
所 示 。 

ELF 文件 头 给 出 解读 整个 ELF 文件 的 路 径 
图 , 它 是 一 个 固定 的 结构 。 文 件 头 的 结构 在 系统 
头 文件 elf.h 中 定义 如 下 : 


# define ET NITENT (16) 
typedef uint16 t Elf32 Half; 
typedef uint32 t E1f32 Word; 
typedef uint32 t E1f32 Addr; 
typedef uint32 t E1f32 Off; 
typedef struct ( 

unsigned char e ident[EI NIIENT]; 
Elf) Half e type; 

Elf) Half e machine; 

Elf32 Word e version; 

Elf32 Addr e entry; 

Elf32 Off e phoff; 

Elf Off e shoff; 

Elf32 Word e flags; 

Elf3) Half e ehsize; 

Elf32 Half e phentsize; 
Elf) Half e phu; 

Elf) Half e shentsize; 
Elf32 Half e shum; 

Elf32 Half e shstrnd; 

) E1f32 Ehdr; 


LinkingView 


ExeutionView 


ELF header 


ELF header 


Program header table 


Program header table 


optional 
Section 1 Segment 1 
Section 2 Segment 2 


Section header table 


Section header table 


optional 


图 14-1 ELF 文件 格式 结构 示意 图 


/LEXBER e ident 
/文件 类 型 

// 机 器 类 型 
/文件 版 本 

// 程 序 入 口 虚 地 址 
// 程 序 头 表 文 件 偏 移 
// 节 头 表 文件 偏 移 
// 处 理 器 相关 的 标志 
/IF 文件 头 大 小 


// 程 序 头 表 每 个 表 项 的 大 小 


// 程 序 头 表 的 表 项 数目 
// 节 头 表 每 个 表 项 的 大 小 


// 节 头 表 的 表 项 数目 


// 节 名 字符 串 的 节 头 表 表 项 索引 


如 果 e_type 二 1, 表 明 它 是 重 定 位 文件 ,可 以 从 连接 视图 去 解读 它 ; 如 果 e_type 一 2, 表 明 
它 是 可 执行 文件 ,可 以 从 装载 运行 视图 中 去 解读 它 ; 如 果 e_type 二 3, 表 明 它 是 共享 动态 库 文 
件 ,同样 可 以 从 装载 运行 视图 中 去 解读 它 ; 如 果 e_type 一 4, 表明 它 是 Core dump 文件 , 则 从 


哪个 视图 中 去 解读 依赖 于 具体 的 实现 。 


每 个 程序 头 表 (Program Header Table) 的 每 个 表 项 的 结构 定义 如 下 : 
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typedef struct 

t 

Elf3) Word p type; // 段 类 型 

Elf2 Off p offset; /在 文件 中 的 偏 移 
Flf32 Addr p vaddr; // 执 行 时 的 虚 地 址 
Elf32 Addr p paddr; // 执 行 时 的 物理 地 址 
Elf32 Word p filesz; // 在 文件 中 的 字 节 数 
Elf32 Word p memsz; // 在 内 存 中 的 字 节 数 
Flf32 Wordp flags; // 标 志 

E1f32 Word p align; /FE AS EE 

) EL£32 Fhdr; 


Iñ] 15 3: (section header table) 的 各 个 表 项 给 出 了 如 何 从 连接 视图 解读 ELF 文件 的 路 


径 图 。 节 头 表 每 个 表 项 的 结构 如 下 所 示 : 


typedef struct 

{ 

E1f32 Word sh name; // 节 名 索引 

E1f32 Word sh type; // 节 类 型 

Elf32 Word sh flags; // 加 载 和 读 写 标志 
Elf32 Addr sh addr; // 执 行 时 的 虚 地 址 
Elf30 Off sh offset; // 在 文件 中 的 偏 移 
Elf32 Word sh size; // 字 节 大 小 

E1f32 Word sh link; //5 chio 5 08 X 
Elf32 Word sh info; /其 他 信息 

E1f32 Word sh addralign; // 字 节 对 齐 

Elf32 Word sh entsize; // 如 果 由 表 项 组 成 ,每 个 表 项 的 大 小 
) EL£32. Shdr; 

2. PE X ft 


可 移植 的 可 执行 PE(Portable Executable) 文件 是 Win32 环境 
自 带 的 可 执行 文件 格式 。PE 文件 的 一 些 特性 继承 了 UNIX 的 Coff 
(common object file format) 文 件 格式 。PE 文件 格式 是 跨 win32 平 
台 的 , 即 Windows 运行 在 非 Intel 的 CPU 上 ,任何 win32 平台 的 PE 
装载 器 都 能 识别 和 使 用 该 文件 格式 。 移 植 到 不 同 的 CPU 上 PE 执 
行文 件 会 有 一 些 改变 。 所 有 win32 可 执行 文件 (除了 VxD 和 16 位 
的 DID) 都 使 用 PE 文件 格式 ,包括 NT 的 内 核 模式 驱动 程序 (kernel 
mode drivers), PE 文件 格式 如 图 14-2 所 示 。 

PE 文件 的 装载 过 程 大 致 为 : 

(D 4 PE 文件 被 执行 时 ,PE 装载 器 检查 DOS MZ header 里 的 
PE header 偏 移 量 。 如 果 找 到 , 则 跳 转 到 PE header。 

(2) PE 装载 器 检查 PE header 的 有 效 性 。 如 有 效 , 跳 转 到 PE 
header 的 尾部 。 


PE 文件 结构 
MS-DOS 
MZ 头 部 
MS-DOS 

PE 文件 标志 
PE 文件 头 
PE 文件 
可 选 头 部 

-text 段 头 部 

.bss 段 头 部 

-rdata 段 头 部 


-debug 段 头 部 
text 段 
.bss 段 
-rdata 段 


.debug 段 


图 14-2 PE 文件 格式 


-351 


网 络 安全 高 级 软件 编程 技术 


(3) 紧 跟 PE header 的 是 节 表 (section table), PE 装载 器 读 取 其 中 的 节 信 息 ,并 采用 文 
件 映 射 方法 将 这 些 节 映射 到 内 存 ,同时 附 上 节 表 里 指定 的 节 属 性 。 

(4) PE 文件 映射 人 内 存 后 ,PE 装载 器 将 处 理 PE 文件 中 类 似 import table( 引 入 表 ) 的 
逻辑 部 分 。 

下 面 对 于 PE 格式 中 几 个 重要 的 结构 需 做 以 下 几 点 说 明 。 

(D MS-DOS 头 部 

PE 文件 的 第 一 个 结构 是 MS-DOS 头 , 该 结构 为 了 兼容 旧 的 DOS 程序 设计 的 ,如 果 一 
个 Win32 程序 在 DOS 模式 下 运行 (所 谓 的 DOS 模式 是 指 纯 DOS 环境 ,而 不 是 Windows 控 
制 台 ),DOS 头 部 会 把 执行 定位 到 MS-DOS 实 模式 残余 程序 ,该 程序 会 调用 int 21 中 断 输 出 
一 个 字符 串 “This program cannot be run in DOS mode”, 然 后 直接 退出 。 

MS-DOS 头 部 在 “winnt. h” E MAEN: 


typedef struct IMAGE DOS HEATER { /VDOS .EXE header 
WORD e magic; // Magic mmber 
WRD e cblp; //Bytes cn last page of file 
WRD eg; //Fages in file 
WORD e crlc; // Felocations 
WORD e cparhdr; // Size of header in paragraphs 
WORD e minalloc; // Minimum extra paragraphs needed 
WORD e mexalloc; // Maximum extra paragraphs needed 
WRD e ss; // Initial (relative) SS value 
WRD e sp; // Initial SP value 
WORD e csum; // Checksum 
WORD e ip; // Initial IP value 
WRD e cs; // Initial (relative) CS value 
WRD e lfarlc; // File address of relocation table 
WORD eom; // Overlay number 
WORD e res[4]; // Reserved words 
WORD e cemid; // CEM identifier (for e ceminfo) 
WORD e ceminfo; // ŒM information; e oemid specific 
WORD e res2[10]; // Feserved words 
IONG e lfanew; // File address of new exe header 


) IMAGE DOS HEALER, * PIME DOS HEATER; 


第 一 成 员 变 量 e. magic. 被 称 为 魔术 数字 , 它 被 用 于 表示 一 个 MS-DOS 兼容 的 文件 类 
型 。 所 有 MS-DOS 兼容 的 可 执行 文件 都 将 这 个 值 设 为 0x5A4D, 表 示 ASCII 字符 MZ, 
MS-DOS 头 部 之 所 以 有 的 时 候 被 称 为 MZ 头 部 ,就 是 这 个 缘故 。 

至 于 其 余 的 成 员 变 量 , 基 本 上 都 是 为 了 DOS 下 实 模式 设计 ,如 今 已 经 没有 什么 实际 作 
用 ,除了 最 后 一 个 成 员 变量 : e_lfanew。 这 个 成 员 变量 用 来 表示 PE 头 部 在 这 个 PE 文件 中 
的 偏 移 量 。 

通过 如 下 代码 可 以 获得 PE 头 部 地 址 : 


BYTE + pFileImage= (BYTE* )pPeImage; 
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PIMAGE DOS HEALER pDosHeader- (PIMAGE DOS HEADFR)rFileImage; 

PIMAGE FIE HAR pFileHeeder- PME FIE HEATER) (Filelmaget pDosteeder- >e lfanewt 4); 

注意 在 计算 偏 移 地 址 的 时 候 出 了 偏 移 量 pDosHeader- >e_lfanew, 还 有 一 个 DWORD 
的 偏 移 ,这 个 DWORD 是 存储 PE 文件 标志 的 , 值 为 0x4550, 对 应 ASCI 字符 “PE”。 

(2) PE 头 部 

接 下 来 的 结构 体 是 PE 头 部 。PE 头 部 在 "winnt. h” 中 定义 如 下 : 


typedef struct IMAGE FIE HEATER ( 
WORD Machine; 
WORD NunberOfSections; 
DWORD TimeDateStamp; 
DWORD FPointerToSymbolTable; 
DWORD NunberOfSynbols; 
WORD SizeOfOptionalHeader; 
WORD Characteristics; 
) IMAGE FILE HEADER, * PME FIE HAER; 


这 个 结构 比较 简单 ,Machine 表示 这 个 可 执行 文件 被 构建 的 目标 机 器 种 类 。 

NumberOfSection 表示 本 PE 文件 段 数 量 。 每 一 个 段 头 部 和 段 实体 都 在 文件 中 连续 地 
排列 着 ,在 定位 段 时 ,首先 根据 段 数 目 确定 全 部 段 头 部 信息 ,然后 根据 段 头 部 内 部 的 信息 依 
次 定位 段 实 体 。 

TimeDataStamp J&— ^ IJ [8] BK 7E fit ; PointerToSymbolTable 和 NumberOfSymbols 确 
定 了 符号 表 的 位 置 和 大 小 。 

SizeOfOptionalHeader 表示 选项 头 部 的 大 小 ,选项 头 部 就 在 PE 文件 头 部 后 面 线性 排 
列 , 这 个 结构 容 后 介绍 ,但 是 读者 不 要 被 名 称 迷 惑 ,选项 头 部 是 对 PE 文件 执行 至 关 重 要 的 
结构 ,并 非 “Optional”。 

Characteristics 表示 了 文件 的 一 些 特 征 。 比 如 对 于 一 个 可 执行 文件 而 言 ,分 离 调试 文 
件 是 如 何 操作 的 。 

(3) 选项 头 

选项 头 在 “winnt. h” 中 定义 如 下 : 


typedef struct IMAGE OPTIONAL HEATER { 
// Standard fields. 
WORD Magic; 
EYE MajorLinkerVersion; 
DWORD SizeOfCode; 
DWORD SizeOflnitializedData; 
SizeOfUninitializedData; 
HkiressOfEntryPoint; 
BaseOfCode; 
DWORD BaseOfData; 
// NT additional fields. 
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DWORD ImageBase; 

DWORD SecticnAligrment; 
FileAlignment; 

WORD MajorOperatingSystenWersion; 
WORD MinorOperatingSystenWersion; 
WORD MajorImegeVersion; 

WORD MinorlmegeVersion; 

WORD MajorSubsystenWersion; 
DWORD Win3NersionValue; 


DWORD SizeOfStackReserve; 

DWORD SizeOfStackCcmmit; 

DWORD SizeOfHearReserve; 

DWORD SizeOfHeepCoammit; 

DWORD IoederFlags; 

DWORD NunberOfRvaAndSizes; 

IMAGE DATA DIRECTORY DataDirectory[IMAGE NUMEEROF DIRECTORY ENTRIES]; 

) IMAGE OPTIONAL HEADER32, * PIME OPTIONAL HERDER32; 

此 结构 成 员 按照 功能 的 区 别 可 以 分 为 两 个 域 : 标准 域 和 NT 附加 域 。 标 准 域 由 前 9 个 
成 员 变量 构成 ,是 和 UNIX 可 执行 文件 的 COFF 格式 所 公共 的 部 分 。 虽 然 标 准 域 保 留 了 
COFF 中 定义 的 名 字 , 但 是 Windows NT 仍然 将 它们 用 做 不 同 的 目的 。 

其 中 , Magic 标示 了 不 同 PE 文件 的 种 类 ,一 般 的 Win32 程序 都 是 0x10b; 
MajorLinkerVersion、MinorLinkerVersion: 表示 链接 此 映像 的 链接 器 版 本 ;SizeOfCode: 可 
执行 代码 尺寸 ;SizeOfInitializedData: 已 初始 化 的 数据 尺寸 ;SizeOfUninitializedData: 未 初 
始 化 的 数据 尺寸 ;AddressOfEntryPoint: 本 PE 文件 执行 的 入 口 点 ;BaseOfCode: 已 载 人 喘 
像 的 代码 (“. text” 段 ) 的 相对 偏 移 量 ;BaseOfData: 已 载 人 映像 的 未 初始 化 数据 (*, bss” BE) 
的 相对 偏 移 量 。 其 他 变量 具体 含义 请 参见 表 14-1 所 示 。 

其 中 ,RVA 代表 相对 虚拟 地 址 ,类 似 文 件 的 偏 移 量 。 

(4) PE 文件 段 

PE 文件 的 段 没有 什么 特定 的 结构 特点 , 它 几乎 可 以 被 链接 器 链接 到 PE 文件 的 任何 地 
Jr ,程序 执行 时 从 PE 文件 定位 段 全 靠 段 头 部 。 

段 头 部 每 个 40 字 节 长 .以 数组 的 形式 存放 在 Image Optional Header 后 面 , 可 以 使 用 如 
下 代码 获得 该 数组 的 起 始 地 址 : 


PIMAGE SECTION HEALER pSectionHeader- (PIME SECTION HEATER) ( ( (char* ) 
OptionalHeader)- sizeof (IMAGE OPTIONAL HEADER32)); 


TR 
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RIH 选项 头 结构 
T x 


AddressOfEntryPoint 


PE 装载 器 准备 运行 的 PE 文件 的 第 一 个 指令 的 RVA。 若 要 改变 整个 执行 的 
流程 ,可 以 将 该 值 指定 到 新 的 RVA, 这 样 新 的 RVA 处 的 指令 首先 被 执行 


ImageBase 


PE 文件 的 优先 装载 地 址 。 比 如 ,如 果 该 值 是 400000h, PE 装载 器 将 尝试 把 文 
件 装 到 虚拟 地 址 空间 的 400000h 处 “优先 ?表示 若 该 地 址 区 域 已 被 其 他 模块 
占用 ,PE 装载 器 会 选用 其 他 空闲 地 址 


SectionAlignment 


内 存 中 节 对 齐 的 粒度 。 例 如 ,如 果 该 值 是 4096 (1000h) ,那么 每 节 的 起 始 地 址 
必须 是 4096 的 倍数 。 若 第 一 节 从 401000h 开始 且 大 小 是 10 个 字 节 , 则 下 一 节 
必定 从 402000h 开始 ,即使 401000h 和 402000h 之 间 还 有 很 多 空间 没 被 使 用 


FileAlignment 


文件 中 节 对 齐 的 粒度 。 例 如 ,如 果 该 值 是 (200h) , 则 每 节 的 起 始 地 址 必须 是 512 
的 倍数 。 若 第 一 节 从 文件 偏 移 量 200h 开始 且 大 小 是 10 个 字 节 , 则 下 一 节 必定 
位 于 偏 移 量 400h, 即 使 偏 移 量 512 和 1024 之 间 还 有 很 多 空间 没 被 使 用 /定义 


MajorSubsystem Version 
MinorSubsystem Version 


win32 子 系统 版 本 。 若 PE 文件 是 专门 为 Win32 设计 的 , 则 该 子 系统 版 本 必定 
是 4. 0, 否 则 对 话 框 不 会 有 3 维 立体 感 


SizeOfImage 内 存 中 整个 PE 映像 体 的 尺寸 。 它 是 所 有 头 和 节 经 过 节 对 齐 处 理 后 的 大 小 
SizeOfHeaders 所 有 头 十 节 表 的 大 小 , 即 等 于 文件 尺寸 减 去 文件 中 所 有 节 的 尺寸 。 可 以 以 此 
值 作为 PE 文件 第 一 节 的 文件 偏 移 量 
NT 用 来 识别 PE 文件 属于 哪个 子 系统 。 对 于 大 多 数 Win32 程序 而 言 ,只 有 两 
Subsystem 


Æ fË: Windows GUI 和 Windows CUI( 控 制 台 ) 


DataDirectory 


— IMAGE DATA DIRECTORY 结构 数组 。 每 个 结构 给 出 一 个 重要 数据 结 
构 的 RVA, 比 如 引入 地 址 表 等 


可 以 读 取 PE 文件 头 部 的 NumberOfSections 变量 获取 该 数组 的 大 小 。 
IMAGE SECTION HEADER 在 “winnt. h” 中 的 定义 如 下 : 


typedef struct IMAGE SECTION HEAIFR { 
BYIE Name[IMACE SIZEOF SHORT NAME]; 


union { 


DWOoRDEhysicalAddress; 
DWORIVirtvalSize; 


) Misc; 


DWORD VirtualAddress; 
DWORD SizeOfRawData; 

DWORD PointerTcRawData; 
DWORD PointerTcFelocations; 


DWORD PointerToLinenurbers; 


WORD  NunberOfRelocations; 


WORD  NunberOfLinenurbers; 


Characteristics; 


) IMAGE SECTION HEATER, * PIME SECTION HEATER; 

。 其 中 ,Name 存储 的 区 段 的 名 称 , 这 个 名 称 最 大 长 度 为 8 字 节 , 且 开头 第 一 个 字符 必 
须 是 “. ”, 如 “. text”、“. data” 等 。 

* Misc 为 保留 字段 ,用 于 兼容 前 期 版 本 。 
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VirtualAddress: 这 个 域 标识 了 进程 地 址 空间 中 要 装载 这 个 段 的 虚拟 地 址 。 实 际 的 
地 址 由 将 这 个 域 的 值 加 上 可 选 头 部 结构 中 的 ImageBase 虚拟 地 址 得 到 。 切 记 , 如 果 
这 个 映像 文件 是 一 个 DLL, 那 么 这 个 DLL 就 不 一 定 会 装载 到 ImageBase 要 求 的 位 
置 。 所 以 一 旦 这 个 文件 被 装载 进入 了 一 个 进程 ,实际 的 ImageBase 值 应 该 通过 使 用 


GetModuleHandle 来 检验 。 
* SizeOfRawData: 表示 原始 数据 的 大 小 ,也 就 是 根据 FileAlignment 进行 对 齐 之 前 的 
数据 大 小 。 


PointerToRawData: 这 是 一 个 文件 中 段 实体 位 置 的 偏 移 量 。 

接 下 来 的 4 个 变量 PointerToRelocations Pointer ToLinenumbers , NumberOfRelocations, 
NumberOfLinenumbers 在 PE 格式 中 不 使 用 。 

Characteristics 定义 了 段 的 特征 。 

表 14-2 显示 了 不 同 Characteristics 值 对 应 的 不 同 含义 。 


表 14-2 ”Characteristics 取 值 范围 及 含义 


可 能 取 值 对 应 含义 可 能 取 值 对 应 含义 
0x00000020 代码 段 0x10000000 共享 段 
0x00000040 已 初始 化 数据 段 0x20000000 可 执行 段 
0x00000080 未 初始 化 数据 段 0x40000000 可 读 段 
0x04000000 该 段 数 据 不 能 被 缓存 0x80000000 可 写 段 
0x08000000 该 段 不 能 被 分 页 


14.2.3 恶意 代码 检测 技术 与 发 展 趋势 


虽然 恶意 代码 判定 十 分 困难 ,但 是 恶意 代码 的 检测 技术 始终 是 网 络 安全 研究 的 一 个 重 
点 问题 。 恶 意 代 码 检测 技术 有 多 种 分 类 方法 ,常用 的 方法 有 : 按照 部 署 方式 分 类 、 按 照 功 能 
分 类 与 按照 检测 数据 类 型 分 类 。 


1. 恶意 代码 检测 部 署 方式 


按照 部 署 方 式 恶意 代码 检测 技术 又 可 以 分 为 : 基于 主机 的 恶意 代码 检测 方法 和 基于 网 
络 的 恶意 代码 检测 方法 。 

(1) 基于 主机 的 恶意 代码 检测 技术 

基于 主机 的 恶意 代码 检测 技术 包括 : 基于 特征 的 扫描 技术 、 校 验 和 技术 、 沙 箱 技 术 与 安 
全 操作 系统 等 。 

° 最 常用 的 恶意 代码 技术 是 基于 特征 的 扫描 。 这 种 方法 主要 是 源 于 模式 匹配 的 思想 。 
扫描 程序 工作 之 前 ,必须 先 建立 恶意 代码 的 特征 文件 ,根据 特征 文件 中 的 特征 串 ,在 
扫描 文件 中 进行 匹配 查找 。 用 户 通过 更 新 特征 文件 扫描 软件 ,查找 最 新 的 恶意 代码 
版 本 。 这 种 技术 目前 广泛 地 应 用 于 反 病毒 引擎 中 。 

。 校 验 和 是 一 种 保护 信息 资源 完整 性 的 控制 技术 ,例如 ,Hash 值 和 循环 宛 余 码 等 。 只 
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要 文件 内 部 有 一 个 比特 改变 , 校 验 和 值 就 会 改变 。 未 被 恶意 代码 感染 的 系统 首先 会 
生成 检测 数据 ,然后 周期 性 地 使 用 校 验 和 法 检测 文件 的 改变 情况 。 运 用 校 验 和 法 检 
查 恶 意 代 码 有 3 种 基本 的 方法 : 
* 在 恶意 代码 检测 软件 中 设置 校 验 和 法 : 对 检测 的 对 象 文件 计算 其 正常 状态 的 校 验 
和 ,并 将 其 写 人 被 查 文件 或 检测 工具 中 ,然后 进行 比较 。 
* 在 应 用 程序 中 嵌入 校 验 和 法 : 将 文件 正常 状态 的 校 验 和 写 人 文件 本 身 中 ,每 当 应 
用 程序 启动 时 ,就 比较 现行 校 验 和 与 原始 校 验 和 ,实现 应 用 程序 的 自我 检测 功能 。 
+ 将校 验 和 程序 常 驻 内 存 : 每 当 应 用 程序 开始 运行 时 ,就 自动 比较 检查 应 用 程序 内 
部 或 其 他 的 文件 中 预 留 保 存 的 校 验 和 。 
沙 箱 技术 是 指 根据 系统 中 每 一 个 可 执行 程序 的 访问 资源 ,以 及 系统 赋予 的 权限 , 建 
立 应 用 程序 的 “ 沙 箱 ”, 限 制 恶意 代码 的 运行 。 每 个 应 用 程序 都 运行 在 自己 受 保护 的 
“ 沙 箱 ” 之 中 ,不 能 影响 其 他 程序 的 运行 。 同 样 ,这 些 程序 的 运行 也 不 能 影响 操作 系 
统 的 正常 运行 ,操作 系统 与 驱动 程序 也 被 保存 在 各 自 的 “ 沙 箱 " 之 中 。 美 国 加 州 大 学 
Berkeley 实验 室 开 发 了 基于 Solaris 操作 系统 的 沙 箱 系统 ,应 用 程序 经 过 系统 底层 
调用 解释 执行 ,系统 会 自动 判断 应 用 程序 调用 的 底层 函数 是 否 符合 系统 的 安全 要 
求 ,以 此 决定 是 否 执行 。 
对 于 每 个 应 用 程序 , 沙 箱 都 为 其 准备 了 一 个 配置 文件 ,限制 该 文件 能 够 访问 的 资源 
与 系统 赋予 的 权限 。Windows XP/2003 操作 系统 提供 了 一 种 软件 限制 策略 ,隔离 
具有 潜在 危害 的 代码 。 这 种 隔离 技术 其 实 也 是 一 种 沙 箱 技术 ,可 以 保护 系统 免 受 通 
过 电子 邮件 和 互联 网 传染 的 各 种 恶意 代码 的 侵害 。 这 些 策略 允许 选择 系统 管理 应 
用 程序 的 方式 : 应 用 程序 既 可 以 被 “限制 运行 ", 也 可 以 被 “禁止 运行 >。 通过 在 “ 沙 
箱 ” 中 执行 不 受信 任 的 代码 与 脚本 ,系统 可 以 限制 甚至 防止 恶意 代码 对 系统 完整 性 
的 破坏 。 
恶意 代码 成 功 人 侵 的 重要 一 环 是 获得 系统 的 控制 权 , 使 操作 系统 为 它 分 配 系 统 资 
源 。 无 论 类 别 与 目的 如 何 ,恶意 代码 都 必须 具有 相应 的 权限 。 没 有 足够 的 权限 , 恶 
意 代码 不 可 能 实现 其 预定 的 恶意 目标 ,或 者 仅 能 够 实现 其 部 分 恶意 目标 。 安 全 操作 
系统 就 是 对 所 有 要 运行 的 代码 进行 安全 审核 ,防止 恶意 代码 获得 系统 的 控制 权 , 以 
达到 防范 恶意 代码 的 目的 。 
(2) 基于 网 络 的 恶意 代码 检测 技术 
基于 网 络 的 恶意 代码 检测 技术 包括 : 基于 GrIDS 的 恶意 代码 检测 、 基 于 PLD 硬件 的 检 
测 、 基 于 HoneyPot 的 检测 与 基于 CCDC 的 检测 。 
* GrIDS 主要 是 针对 大 规模 网 络 攻击 和 自动 化 入侵 设计 的 , 它 收集 计算 机 和 网 络 活动 
的 数据 以 及 它们 之 间 的 连接 ,在 预先 定义 的 模式 库 的 驱动 下 ,将 这 些 数据 构建 成 网 
络 活动 行为 来 表征 网 络 活动 结构 上 的 因果 关系 。 
GrIDS 通过 建立 和 分 析 节 点 间 的 行为 图 (activity graph) ,通过 与 预定 义 的 行为 模式 图 
进行 匹配 ,检测 恶意 代码 是 否 存在 ,是 当前 检测 分 布 式 恶意 代码 入 侵 的 有 效 工具 之 一 。 
° 华盛顿 大 学 应 用 研究 室 的 John W. Lockwood, James Moscolal 和 MatthewKulig 
等 。 提 出 了 一 种 采用 可 编程 逻辑 设备 (Programmable Logic Devices. PLDs) 对 抗 恶 
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意 代码 的 防范 系统 。 该 系统 由 3 个 相互 内 联 部 件 DED (Data Enabling Device) 
CMS(Content Matching Server) 和 RTP(Regional Transaction Processor) 组 成 。 
其 中 DED 负责 捕获 流 经 网 络 出 人 口 的 所 有 数据 包 , 根 据 CMS 提供 的 特征 串 或 规则 
表达 式 对 数据 包 进 行 扫描 匹配 ,并 把 结果 传递 给 RTP;CMS 负责 从 后 台 的 MYSQL 
数据 库 中 读 取 已 经 存在 的 恶意 代码 特征 ,编译 综合 成 DED 设备 可 以 利用 的 特征 串 
或 规则 表达 式 ;RTP 根据 匹配 结果 决定 DED 将 采取 何 种 操作 。 在 恶意 代码 大 规模 
入 侵 时 ,系统 管理 员 首先 把 该 恶意 代码 的 特征 添加 到 CMS 的 特征 数据 库 中 ， DED 
扫描 到 相应 特征 才 会 请 求 RTP 做 出 放行 或 阻 断 的 响应 。 
早期 HoneyPot 检测 方法 主要 用 于 防范 网 络 黑客 攻击 。ReVirt 是 能 够 检测 网 络 攻 
击 或 网 络 异常 行为 的 HoneyPot 系统 。Spitzner 首次 运用 HoneyPot 防御 恶意 代码 
攻击 。 
HoneyPot 之 间 可 以 相互 共享 捕获 的 数据 信息 ,采用 NIDS 的 规则 生成 器 产生 恶意 
代码 的 匹配 规则 , 当 恶 意 代 码 根据 一 定 的 扫描 策略 扫描 存在 漏洞 主机 的 地 址 空间 
时 ,HoneyPot 可 以 捕获 恶意 代码 扫描 攻击 的 数据 ,然后 采用 特征 匹配 来 判断 是 否 有 
恶意 代码 攻击 。 
。 由 于 主动 式 传播 恶意 代码 具有 生物 病毒 特征 ,美国 安全 专家 提议 建立 CCDC(The 

Cyber Centers for Disease Control) 来 对 抗 恶 意 代 码 攻击 。 

防范 恶意 代码 攻击 的 CCDC 体系 具备 以 下 功能 : 

* 鉴别 恶意 代码 的 爆发 期 。 

$ “ia anaq as 


恶意 代码 新 的 传染 途径 。 
* 开展 恶意 代码 对 抗 工具 的 前 脆性 研究 以 对 抗 未 来 恶意 代码 的 威胁 。 

CCDC 能 够 实现 对 大 规模 恶意 代码 人 侵 的 预警 防御 和 阻 断 。 但 CCDC 体系 也 存在 一 
些 问题 。 这 些 问题 主要 表现 在 以 下 几 个 方面 : 

(D CCDC 是 一 个 规模 庞大 的 防范 体系 ,系统 运转 的 代价 高 。 

Q 由 于 CCDC 体系 的 开放 性 ,CCDC 自身 的 安全 问题 也 不 容 忽视 。 

© Æ CCDC 防范 体系 中 ,攻击 者 能 够 监测 恶意 代码 攻击 的 全 过 程 ,通过 深入 理解 
CCDC 体系 防范 恶意 代码 的 工作 机 制 ,可 能 研究 出 突破 CCDC 防范 体系 的 恶意 代码 。 


2. 恶意 代码 检测 技术 功能 分 类 


卡巴 斯 基 实 验 室 Alisa Shevchenko 认为 恶意 代码 检测 技术 由 两 部 分 组 成 一 一 技术 组 件 
和 分 析 组 件 ,其 结构 如 图 14-3 Bron 。 

(1) 技术 组 件 

病毒 软件 (或 其 他 安全 软件 ) 会 采取 相应 的 行动 : 通知 用 户 , 询 问 处 理 方式 ,将 文件 隔 
离 , 阻 断 未 认证 的 程序 行为 等 。 

恶意 代码 的 特征 主要 表现 在 以 下 三 个 方面 : 一 是 它 是 具有 一 定 内 容 的 文件 ,二 是 在 操 

作 系统 中 进行 的 一 组 行为 ,三 是 操作 系统 中 作用 效果 的 集合 。 因 此 对 恶意 代码 的 识别 可 以 
从 不 同 的 层面 上 进行 : 通过 字 节 序列 、 通 过 行为 和 通过 对 操作 系统 的 影响 等 。 一 般 可 以 采 


—- Analytical component t —— 
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Detailed analysis Increase in abstraction 


E Signature detection 

EJ Heuristics 

O Proactive Defense 

E Emulator 

回 Sandbox 

EJ HIPS 

E] Detecting anomalies 

a Comparing system 
condition to a standard 


Estimated system condition 
based on a range of factors 


— Technical component -一 


14-3 ”恶意 代码 检测 技术 的 技术 组 件 与 分 析 组 件 结构 示意 图 


用 以 下 检测 技术 进行 : 将 文件 作为 字 节 序列 处 理 ; 模 拟 程序 代码 、 在 沙 箱 中 运行 程序 
(sandbox) 或 其 他 类 似 的 虚拟 技术 、 监 视 系统 事件 与 搜索 系统 异常 。 

上 述 方法 是 按 处 理 代码 时 抽象 级 别 由 低 到 高 排列 的 。 这 里 抽象 级 别 的 意思 是 研究 从 何 
种 角度 来 查看 可 执行 程序 : 作为 原始 的 数字 对 象 ( 字 节 串 ), 作 为 行为 ( 字 节 串 的 结果 ,更 为 
抽象 ) 施 动 者 或 是 作为 对 操作 系统 产生 的 效果 (行为 的 结果 ,进一步 抽象 ) 的 集合 。 反 病毒 技 
术 就 是 按照 处 理 文件 本 身 , 根 据 文件 处 理事 件 , 根 据 事件 处 理 文件 ,处 理 环 境 本 身 " 这 个 顺 
序 逐 渐 发 展 的 。 


文件 扫描 : 最 早出 现 的 反 病 毒 软件 都 是 将 文件 视 为 字 节 序列 的 。 然 而 ,研究 者 却 很 
难 将 它 称 之 为 分 析 技 术 。 因 为 它 仅仅 是 将 字 节 序列 和 已 知 特征 做 比较 。 研 究 者 现 
在 感 兴趣 的 是 这 种 技术 的 技术 组 件 : 在 搜索 恶意 程序 的 过 程 中 ,数据 被 传递 到 判定 
组 件 ,而 该 数据 是 从 文件 中 抽取 出 的 一 个 具有 某 种 形式 的 有 序 字 节 序列 。 

这 种 方法 的 特点 是 : 反 病毒 软件 只 处 理 程序 的 字 节 码 ,而 不 关心 它 的 行为 。 虽 然 方 
法 比较 传统 ,但 是 并 没有 过 时 ,直到 现在 还 被 反 病 毒 软件 所 采用 ,只 是 它 已 经 不 再 是 
唯一 的 ,甚至 不 再 是 主要 的 方法 了 ,而 是 众多 技术 中 的 一 种 而 已 。 

模拟 : 模拟 技术 从 程度 上 来 说 处 于 把 程序 视 为 字 节 序列 的 技术 和 把 程序 视 为 行为 
序列 的 技术 之 间 。 

虚拟 机 将 程序 字 节 代码 划分 为 指令 ,并 在 虚拟 的 计算 机 环境 中 执行 每 一 条 指令 。 这 
样 就 可 以 监视 程序 的 行为 ,不 会 像 在 真实 环境 中 执行 恶意 程序 那样 会 威胁 操作 系统 
和 用 户 数 据 。 

虚拟 机 的 特点 主要 是 : 虚拟 机 仍然 和 文件 打交道 ,但 是 实际 分 析 的 对 象 已 经 是 事件 
了 。 虚 拟 机 已 经 用 在 了 许多 反 病 毒 软件 中 ,主要 作为 底层 文件 引擎 或 高 层 引擎 ( 沙 
箱 、 系 统 监视 ) 的 一 种 辅助 。 


* 虚拟 化 : 虚拟 化 使 用 的 沙 箱 技术 是 模拟 技术 的 一 种 逻辑 延伸 。 使 用 沙 箱 技术 时 , 恶 


意 程序 已 经 在 真实 的 环境 中 运行 了 ,只 是 被 严格 地 控制 起 来 了 。 模 拟 技术 与 虚拟 化 
技术 之 间 的 界线 可 能 并 不 宽 , 但 却 很 明显 。 前 一 种 技术 为 程序 的 执行 提供 了 环境 ， 
这 样 工作 进程 中 就 包含 了 被 执行 程序 并 完全 控制 了 程序 的 运行 。 对 后 一 种 技术 , 真 
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实 的 操作 系统 作为 运行 环境 ,而 这 种 技术 就 是 用 来 控制 程序 与 操作 系统 之 间 交 互 
的 。 这 是 两 者 的 主要 区 别 。 基 于 虚拟 技术 的 防御 手段 的 处 理 对 象 已 经 不 是 文件 ,而 
是 程序 的 行为 ,但 还 不 是 操作 系统 的 行为 。 
反 病 毒 软件 不 会 主动 使 用 * 沙 箱 ? 以 及 虚拟 机 这 类 方法 ,主要 是 因为 这 些 实现 方法 的 
程序 需要 占用 大 量 的 资源 。 带 有 沙 箱 的 反 病毒 程序 在 程序 和 开始 执行 之 间 会 有 一 
个 延 时 ,所 以 可 以 通过 这 一 点 判断 反 病毒 程序 是 否 有 “ 沙 箱 ”。 目 前 硬件 虚拟 化 方面 
的 研究 正在 积极 进行 之 中 ,目前 只 有 几 种 防 病毒 软件 使 用 了 * 沙 箱 ?引擎 技术 。 
系统 事件 监控 : 系统 事件 监控 是 一 种 更 为 抽象 的 ,为 暴露 恶意 程序 而 进行 信息 搜集 
的 方法 。 虚 拟 机 或 沙 箱 用 于 观察 每 一 个 独立 的 程序 ,监控 器 则 是 通过 监视 操作 系统 
和 运行 的 程序 中 产生 的 所 有 事件 来 观察 所 有 的 程序 。 
这 种 信息 搜集 的 方法 是 通过 挂钩 操作 系统 函数 来 实现 的 。 挂 钓 了 某 些 系 统 函 数 调 
用 后 ,挂钩 孙 数 就 能 得 到 某 个 确定 程序 在 系统 中 进行 某 个 确定 行为 的 信息 。 作 为 功 
能 的 延伸 ,监控 器 会 收集 这 些 行 为 的 统计 信息 并 将 它 传 给 分 析 组 件 进行 处 理 。 
这 种 技术 目前 发 展 最 为 迅速 。 在 某 些 较 好 的 反 病毒 软件 中 , 它 已 经 成 为 一 种 组 件 ， 
一 个 独立 的 工具 ,专门 用 来 监控 系统 (如 : Prevx、CyberHawk 这 类 的 程序 )。 由 于 任 
何 防御 都 可 以 被 绕 过 ,所 以 这 种 检测 恶意 程序 的 方法 并 非 是 最 有 效 的 ,在 真实 环境 
中 运行 程序 所 带 来 的 威胁 会 大 大 降低 防御 的 效果 。 
搜索 系统 异常 : 搜索 系统 异常 是 搜集 可 能 被 感染 的 系统 中 信息 的 最 为 抽象 的 方法 ， 
它 是 前 面 技术 的 一 种 自然 延伸 与 抽象 。 搜 索 系统 异常 方法 建立 在 以 下 前 提 之 上 : 
操作 系统 和 运行 于 其 上 的 程序 是 一 个 完整 的 系统 ;操作 系统 有 内 在 的 “系统 状态 ”; 
如 果 在 操作 系统 中 执行 了 恶意 代码 , 则 系统 的 状态 就 是 * 非 健康 的 ”, 这 种 状态 和 系 
统 中 没有 恶意 代码 时 的 “健康 状态 "不同 。 从 这 些 状态 人手, 将 系统 状态 与 标准 状态 
做 对 比 或 单独 分 析 状 态 参 数 ,研究 者 就 能 评价 系统 的 状况 ,从 而 判断 系统 中 是 否 可 
能 有 恶意 程序 。 
为 了 有 效 采用 分 析 异 常 的 方法 来 检测 恶意 代码 ,分 析 系 统 必 须 足够 强大 ,需要 采用 专家 
系统 或 神经 网 络 技术 。 但 同时 也 会 面临 以 下 一 些 问题 : 如 何 定义 “健康 状态 ”, 它 和 “ 非 健康 
状态 ”的 区 别 , 有 哪些 离散 的 参数 可 供 跟踪 以 及 如 何 进行 分 析 等 。 由 于 技术 的 复杂 性 ,因此 
目前 这 种 方法 用 得 还 很 少 。 某 些 anti-rootkit 工具 采用 了 这 种 方法 ,要么 将 系统 状态 和 标准 
系统 状态 做 对 比 ( 如 PatehFinder, Kaspersky Inspector) ,要 么 比较 单独 的 参数 (如 GMER, 
Rootkit Unhooker) 。 
(2) 分 析 组 件 
分 析 组 件 包括 对 目标 的 简单 比较 ,复杂 比较 或 基于 复杂 数据 分 析 的 专家 系统 。 病 毒 判 
定 算法 的 复杂 度 是 很 难 精确 界定 的 。 反 病毒 软件 的 分 析 系 统 大 致 可 以 分 成 三 种 ,而 在 这 三 
者 中 间 可 能 还 有 许多 中 间 变 体 。 
。 简单 比较 : 通过 将 单一 对 象 与 已 有 样本 做 比较 而 得 出 结论 。 比 较 的 结果 只 有 "是 ” 
或 者 “不 是 ”。 如 采用 严格 确定 的 字符 序列 去 识别 恶意 程序 ;或 者 通过 行为 比较 发 现 
可 疑 程序 行为 ,如 向 注册 表 关 键 部 位 或 自 启动 文件 夹 中 写 入 的 行为 等 。 

。 复合 比较 : 将 一 个 或 几 个 对 象 与 相应 样本 做 比较 而 得 出 结果 。 比 较 的 模式 可 以 是 
可 变 的 ,而 比较 的 结果 是 一 个 概率 。 例 如 ,经 过 对 数据 样本 分 析 , 判 断 API A,B,C, 
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D 为 恶意 代码 经 常 调 用 的 API。 某 可 执行 文件 调用 其 中 任意 三 个 API, 则 该 可 执行 
文件 为 恶意 代码 的 概率 大 于 9026 。 

。 专 家 系统 : 通过 对 数据 进行 复杂 的 分 析 而 得 出 结果 。 这 是 自身 带 有 人 工 智能 性 质 
的 系统 。 例 如 不 使 用 严格 给 定 的 一 组 参数 ,而 是 从 整体 上 多 方面 评估 所 有 参数 , 考 
虑 它们 潜在 恶意 性 的 权重 并 计算 出 总 体 结果 。 


3. 恶意 代码 检查 数据 类 型 分 析 


检测 数据 可 以 分 为 静态 和 动态 两 种 类 型 。 针 对 两 种 类 型 数据 的 具体 特点 ,将 恶意 代码 
检测 技术 分 成 基于 代码 序列 特征 码 的 检测 技术 、 启 发 式 的 检测 技术 、 基 于 异常 行为 的 检测 技 
术 和 基于 行为 结果 的 检测 技术 。 

(1) 基于 代码 序列 特征 码 的 检测 技术 : 基于 代码 序列 特征 码 的 检测 是 应 用 历史 最 长 的 
一 种 方法 。 通 过 分 析 恶 意 代码 样本 ,从 样本 的 代码 中 提取 它们 的 特征 代码 ,在 扫描 文件 时 将 
当前 的 文件 与 特征 码 库 进行 对 比 ,判断 文件 中 是 否 含有 特征 数据 ,如 有 则 认为 是 恶意 代码 。 
这 种 方法 速度 快 ,较为 准确 。 但 是 也 有 明显 的 缺点 : 需要 先 捕获 恶意 代码 才能 分 析 掌 握 特 
征 码 ,因此 检测 总 是 落后 于 恶意 代码 ;另外 对 于 采用 了 代码 变形 技术 .代码 混淆 技术 .代码 加 
密 技术 及 加 壳 技 术 等 恶意 代码 自我 保护 技术 的 恶意 代码 ,这 种 检测 方法 会 失效 。 

(2) 启发 式 的 检测 技术 : 恶意 代码 要 实现 其 特定 功能 ,需要 使 用 系统 的 API 函数 。 通 
过 静态 分 析 和 动态 分 析 获 得 恶意 代码 调用 的 函数 列表 和 函数 间 的 调用 关系 。 通 过 对 大 量 样 
本 的 分 析 , 将 获得 的 函数 列表 和 函数 间 的 调用 关系 采用 数据 挖 气 等 方法 进行 分 析 , 总 结 出 特 
征 并 对 每 种 调用 关系 定义 一 种 危险 级 别 。 如 果 某 个 程序 调用 了 危险 的 特定 函数 集合 ,研究 
者 可 以 怀疑 其 可 能 是 恶意 代码 。 

(3) 基于 异常 行为 的 检测 技术 : 利用 病毒 的 特有 行为 特征 来 监测 病毒 的 方法 。 当 程序 
运行 时 ,实时 监视 其 运行 过 程 中 的 动态 行为 ,如 果 发 现 了 恶意 行为 ,立即 报警 并 阻止 其 运行 。 
目前 较为 流行 的 主动 防御 技术 就 是 分 析 ,监控 系统 内 进程 或 程序 的 行为 和 指令 ,如果 发 现 异 
常 则 立刻 阻止 恶意 代码 的 执行 以 保护 系统 。 

(4) 基于 行为 结果 的 检测 技术 : 这 种 技术 的 原理 是 检测 恶意 代码 执行 后 对 系统 状态 的 
改变 结果 ,然后 进行 判定 。 具 体 方法 是 建立 不 同 操作 系统 版 本 和 不 同 应 用 软件 安装 后 的 原 
始 状 态 库 。 因 为 恶意 代码 执行 后 ,将 会 使 系统 状态 发 生 改变 ,如 注册 表 、 文 件 、 进 程 以 及 端口 
等 ,所 以 通过 分 析 系 统 状态 的 前 后 变化 ,可 得 出 是 否 感染 恶意 代码 的 结论 。 


4. 现 有 检测 技术 的 缺陷 及 未 来 发 展 趋势 


至 今 还 没有 一 项 检测 技术 能 够 检测 所 有 的 恶意 代码 ,并 且 误 报 、 误 杀 成 为 反 病 毒 行业 面 
临 的 难题 。 随 着 恶意 代码 技术 的 不 断 提 高 ,已 有 的 检测 技术 都 存在 以 下 不 足 : 误 报 率 高 , 漏 
报 率 高 ,占用 资源 多 ,效率 低 , 有 效 期 短 及 防 攻击 能 力 弱 等 。 因 此 ,针对 恶意 代码 新 的 检测 和 
防范 技术 成 为 当前 的 研究 热点 。 

随 着 恶意 代码 技术 的 发 展 ,恶意 代码 呈现 出 以 下 特点 : 隐蔽 性 不 断 增 强 , 传 播 方式 和 途 
径 增 多 ,网 络 化 趋势 明显 ,危害 性 增 大 等 。 计 算 机 病毒 .蠕虫 和 木马 技术 互相 融合 的 趋势 日 
益 明显 。 这 些 情 况 使 得 恶意 代码 的 检测 和 预防 变 得 更 加 困难 。 因 此 ,恶意 代码 复合 检测 技 
术 是 提高 检测 能 力 的 重要 途径 之 一 。 复 合 检测 技术 是 指 将 现 有 的 恶意 代码 检测 技术 进行 综 
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合 应 用 ,同时 与 IDS 和 防火 墙 技 术 有 机 结合 ,在 多 个 主机 和 网 络 等 环节 进行 检测 ,才能 适应 
恶意 代码 的 发 展 ,有 效 抵御 恶意 代码 的 侵袭 。 男 一 方面 ,近年 来 恶意 代码 制作 工具 化 ,导致 
恶意 代码 变种 多 ,数量 急剧 增长 ,传统 的 特征 代码 检测 技术 已 经 无 法 适应 恶意 代码 的 这 种 变 
化 形势 。 因 此 ,基于 数据 挖掘 、 人 工 神 经 网 络 、 决 策 树 、 最 近邻 居 法 、 支 持 向 量 机 和 贝 叶 斯 理 
论 等 机 器 学 习 的 检测 技术 成 为 研究 的 热点 ,并 逐步 被 广泛 使 用 。 尤 其 是 基于 系统 和 网 络 异 
常 行为 的 恶意 代码 检测 技术 成 为 近期 的 主要 发 展 趋势 ,基于 可 信 计 算 技 术 的 恶意 代码 主动 
防御 技术 是 今后 恶意 代码 检测 和 防范 技术 研究 的 重要 发 展 方向 。 


14.2.4 开源 恶意 代码 检测 系统 Clam AntiVirus 


1. 简介 


Clam AntiVirus 是 一 款 UNIX 下 开源 的 (GPL) 反 病毒 工具 包 , 该 工具 包 提供 了 包括 灵 
活 、 可 伸缩 的 监控 程序 \ 命 令 行 扫描 程序 以 及 用 于 自动 更 新 数据 库 的 高 级 工具 在 内 的 大 量 实 
用 程序 。 该 工具 包 的 核心 在 于 可 用 于 各 类 场合 的 反 病毒 引擎 共享 库 。 

Clam AntiVirus 的 主要 特点 如 下 : 

(D Clam AntiVirus 内 置 了 对 包含 Zip, RAR, .Tar、Gzip、Bzip2.OLE2 Cabinet, CHM, 
BinHex,SIS 及 其 他 格式 在 内 的 多 种 压缩 包 格 式 的 支持 。 

(2) 内 置 了 对 绝 大 多 数 邮件 文件 格式 的 支持 。 

(3) 内 置 了 对 使 用 UPX、FSG、Petite、NsPack、wwpack32、MEW、Upack 压缩 以 及 使 用 
SUE, Y0da Cryptor 和 其 他 程序 模糊 处 理 的 ELF 可 执行 文件 和 便携 式 可 执行 文件 的 支持 。 

(4) 内 置 了 对 包括 MS Office 和 MacOffice 文件 .HTML、RTF 和 PDF 在 内 的 主流 文 
档 格 式 的 支持 。 


2. Clam AntiVirus 的 特征 码 格式 
Clam AntiVirus 主要 采用 特征 匹配 方式 进行 病毒 的 识别 ,其 采用 的 特征 码 主要 有 ， 


(1) 文件 MD5 码 : 这 种 特征 码 是 最 简单 的 Clam AntiVirus 特征 码 形式 ,但 只 能 识别 静 
态 , 单 一 的 恶意 代码 。 特 征 码 的 形式 如 下 : 
48c4533230elaelcl18c741c0db19dfb:17387:test.exe 
(2) PE IX B MD5 码 : 这 种 格式 是 将 PE 文件 某 个 区 段 内 容 的 MD5 码 作 为 Clam 
AntiVirus 特征 码 。 特 征 码 的 形式 如 下 : 
(3) 十 六 进 制 特征 码 分 为 以 下 四 种 : 
。 十 六 进 制 基本 特征 码 格式 ,该 格式 比较 简单 ,只 需要 设 定 恶 意 代 码 名 称 和 应 当 包 含 
的 十 六 进 制 特征 串 。 形 式 如 下 : 
MalwareName- HexSignature 


° 十 六 进 制 扩展 特征 码 格式 : 在 基本 格式 基础 上 加 入 了 文件 类 型 、 偏 移 量 等 属性 ， 
如 下 : 
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MalwareName:TargetType:Offset :HexSignature [:MinEngineFunctionalitylevel: [Max]] 


十 六 进 制 逻辑 特征 码 格式 : 最 为 复杂 的 一 种 特征 码 格式 ,该 格式 可 以 支持 多 特征 串 
以 及 它们 之 间 复 杂 的 逻辑 关系 ,其 格式 定义 如 下 : 

SignatureName; TargetDescriptionBlock;IogicalExpression;Subsig0;Subsigl;Subsig?; 

其 中 , TargetDescriptionBlock 属性 规定 了 目标 文件 对 应 的 扫描 引擎 类 型 ; 
LogicalExpression 指定 了 特征 码 Subsig0 , Subsigl 和 Subsig2 之 间 的 逻辑 关系 。 
举例 说 明 如 下 : 

Sig4;TProgFt:]Engine:18- 20; ((0] 1) & C| 3) ) s4;EP*- 123:33c06834F04100£75e f al4951684cf04100s811 

0a00;S2+ 18:22222:32-28250229 (à- 15) 686513 (63| 64) 61706528; S+ 50: 68efa311c359963d51ee8e58 

6d32a759043e; f9c58dcf43987e4£51936290103375; SL+ 550:6300680065005c0046006900 

压缩 文件 特征 码 : 此 特征 码 主要 针对 各 种 压缩 包 内 的 文件 ,其 格式 如 下 : 
Virneme:encrypted:fileneme:normal size:csize:crc32:amethod:fileno:max depth 


其 中 各 属性 的 含义 如 下 : 

a. virusname: 病毒 名 称 ; 

b. encrypted: 加 密 标 记 〈1 一 加 密 ;0 一 未 加 密 ); 
c. filename: 文件 名 称 ; 

d. normal size: 原文 件 大 小 ; 

. csize: 压缩 后 的 大 小 ; 

f. CRC32: CRC32 校 验 值 ; 

. Cmethod; 压缩 类 型 (. zip or . rar); 

Fileno: 文件 在 压缩 包 中 的 序号 ; 

i. Max depth: 压缩 包 的 最 大 层 数 。 


° 


pom 


3. BM 特征 码 匹配 算法 


如 果 将 二 进 制 文件 看 成 连续 字符 序列 ,特征 码 匹配 可 以 使 用 字符 串 匹 配 算法 实现 。 
Boyer 和 Moore 提出 的 BM(Boyer-Moore) 算 法 被 认为 在 一 般 的 应 用 中 为 最 有 效 的 字符 串 
匹配 算法 。 设 待 检测 目标 字符 串 长 度 为 ,模式 匹配 字符 串 长 度 为 ,这 种 算法 的 最 好 时 间 
复杂 度 是 O(n/m) ,最 差 复 杂 度 是 O(m Xn)。 

BM 算法 的 基本 思想 是 : 假设 待 检测 目标 字符 串 为 ,匹配 参考 字符 串 为 P, 将 S 中 自 
位 置 i 起 从 右 向 左 的 一 个 子 串 与 模式 进行 从 右 到 左 的 匹配 过 程 中 , 若 发 现 不 匹配 , 则 下 次 应 
从 S 的 i 十 distCSLi]) 位 置 开 始 重新 进行 新 一 轮 的 匹配 ,其 效果 相当 于 把 P 和 S 向 右 滑 过 一 
段 距离 distCS[i D , 即 跳 过 dist(S[ 癌 ) 个 无 需 进行 比较 的 字符 。 

其 中 dist(x) 为 距离 函数 ,输入 为 一 个 无 符号 char, 输 出 为 位 置 值 ,在 该 函数 中 维护 一 个 
长 度 为 256 的 数组 。 由 于 无 符号 char 的 数值 范围 是 0~255, 所 以 该 数组 每 位 对 应 一 个 无 符 
号 char 在 P 中 最 后 一 次 出 现 的 位 置 距离 字符 串 尾 的 长 度 ,如 P 中 不 包含 该 无 符号 数 , 则 数 
组 该 项 为 P 的 长 度 。 这 样 ,在 匹配 过 程 中 ,每 次 出 现 不 匹配 情况 ,可 以 直接 跳 过 不 必 比 较 的 
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字符 ,从 而 提升 比较 效率 。 

下 面 举 例 说 明 , 图 14-4 是 使 用 BM 算法 进行 字符 串 搜索 的 过 程 示意 图 。 

图 14-4 为 在 字符 串 “ababcabcacbab” 中 寻找 01234567 8910111 
子囊 "abeac" 的 例子 ,寻找 分 为 三 步 进行 , 第 一步 ，， 和 | iei 
指针 偏 移 到 4 位 置 ,然后 开始 回 缩 比 对 ,对 比 的 第 [aJbTeTla 
一 个 字符 *c" 一 致 ,发 现 第 二 个 字符 *b" 与 “a" 不 匹 
配 ;第 二 步 , 由 于 第 三 个 字符 “b” 在 “abcac” 中 的 最 
后 一 次 出 现 的 位 置 距离 字符 串 尾 的 距离 为 3, 则 指 s [be elie 
针 在 原 字 符 串 中 移动 三 位 ,从 位 置 3 到 位 置 6; 第 3 lalelale[clalele[ale|bla]|b 
三 步 ,由 于 第 二 步 移动 后 ,其 第 一 个 字符 就 不 匹 
配 ,所 以 指针 继续 移动 ,依然 移动 3 位 ,从 位 置 6 到 
达 位 置 9, 继 续 回 缩 匹配 ,成 功 匹配 后 返回 。 


c 


2 |albljalbljclaljbljclalclbljalb 


alblclalc 


图 14-4 BM 算法 匹配 示意 图 


4. AC 特征 码 匹 配 算法 


自动 机 匹配 算法 AC(Aho-Corasick) 算 法 是 最 著名 的 多 模 匹 配 算法 之 一 。 该 算法 在 1975 
年 产生 于 贝尔 实验 室 。Aho-Corasick 算法 是 基于 有 限 状态 自动 机 进行 特征 码 匹配 的 ,在 进行 
匹配 之 前 , 先 对 模式 串 集合 进行 预 处 理 , 构 建树 型 有 限 状 态 自动 机 FSA(finite state automata) , 
然后 依据 该 FSA, 只 需 对 文本 串 扫描 一 次 就 可 以 找 出 与 其 匹配 的 所 有 模式 串 。 


预 处 理 生成 3 个 函数 : 
(1) 转移 函数 用 于 标识 ,在 当前 状态 下 读 入 下 一 个 待 比 较 文本 的 字符 后 到 达 的 下 一 个 


(2) 失效 函数 用 来 指明 在 某 个 状态 下 , 当 读 入 的 字符 不 匹配 时 应 转移 到 的 下 一 个 状态 。 

(3) 输出 函数 的 作用 是 ,在 匹配 过 程 中 , 当 出 现 匹配 时 输出 与 当前 状态 匹配 的 模式 。 

Aho-Corasick 算法 的 匹配 过 程 是 : 从 初始 状态 0 出 发 ,每 次 取出 文本 串 中 的 一 个 字符 ， 
根据 当前 的 状态 和 扫描 到 的 字符 ,利用 转移 函数 或 失效 函数 进入 下 一 状态 。 当 某 个 状态 的 
输出 函数 不 为 空 时 ,表明 达到 该 状态 时 找到 了 匹配 的 模式 ,于 是 输出 匹配 结果 。 有 限 自动 机 
的 构造 过 程 是 将 匹配 关键 字 集 合 变换 成 由 转向 函数 、 失 效 函 数 和 输出 函数 所 组 成 的 树 型 有 
限 自动 机 。 模 式 匹配 的 处 理 过 程 就 变 成 了 状态 转换 的 处 理 过 程 ,举例 说 明 , 由 关键 字 集 合 
{he,she,his,hers} 构 成 的 关键 字模 式 树 如 图 14-5 Bras o 

在 此 基础 上 , 补 全 失效 函数 和 转移 函数 即 可 以 基于 {he,she,his,hers } 关 键 词 集合 构造 
自动 机 。 如 图 14-6 Eros ,其 中 虚线 为 失效 函数 ,没有 给 出 的 都 指向 根 节点 , 实 线 为 转移 天 
数 。 在 有 限 自动 机 的 构造 中 ,每 个 模式 串 的 字符 是 从 前 到 后 依次 加 到 树 型 的 有 限 自动 机 中 
的 ,在 匹配 时 ,目标 串 的 输入 , 即 匹配 过 程 ,也 是 按照 从 前 到 后 的 次 序 尝试 匹配 。 

利用 已 构成 的 有 限 自 动机 进行 多 串 一 遍 查 找 的 过 程 如 下 : 

CD. 从 有 限 自 动机 的 0 状态 出 发 ,从 目标 字符 串 的 第 一 个 字符 开始 正 向 逐个 取出 字符 ， 
并 检测 其 转移 函数 或 者 失效 函数 进而 进入 下 一 个 状态 。 

(2) 不 断 重复 步骤 (1) ,直到 整个 字符 串 处 理 完毕 后 当前 状态 对 应 的 输出 函数 不 为 空 时 
为 止 。 函 数 结束 后 输出 匹配 结果 。 


第 14 章 基于 特征 码 的 恶意 代码 检测 系统 的 设计 与 实现 


A keyword tree for P={he, she, his, hers]: 


图 14-5 AC 算法 模式 树 图 14-6 模式 树 构造 


AC 算 法 可 以 认为 是 KMP 算法 在 多 串 查 找 的 扩展 。 其 模式 匹配 的 时 间 复 杂 度 是 
On) ,而 且 与 模式 集中 模式 串 的 个 数 和 每 个 模式 串 的 长 度 无 关 。 无 论 模式 串 了 是 否 出 现在 
待 检测 字符 串 工 中 ,T 中 的 每 个 字符 都 必须 输入 状态 机 中 。 所 以 ,无 论 是 在 最 好 情况 还 是 
最 坏 情况 下 ,Aho-Corasick 算法 模式 匹配 的 时 间 复 杂 度 都 是 O(n)。 包 括 预 处 理 时 间 在 内 ， 
Aho-Corasick 算法 总 时 间 复 杂 度 是 OGn +n) ,其 中 ,m 为 所 有 模式 串 P 的 长 度 总 和 。 


14.3 实例 编程 练习 


14.3.1 编程 练习 要 求 


本 章 要 求 在 Linux 平台 上 以 Clam AntiVirus 引擎 和 Clam AntiVirus 特征 码 库 为 基础 ， 
完成 ClamScan 程序 的 设计 、 实 现 。 由 于 病毒 扫描 程序 的 复杂 度 较 高 ,这 里 仅 对 Clam 
AntiVirus 的 关键 子 程序 进行 分 析 和 介绍 ,读者 可 以 在 此 基础 上 自行 编写 属于 自己 的 病毒 
扫描 程序 。 下 面 给 出 编写 ClamScan 程序 的 具体 要 求 。 

ClamScan 是 Linux 命令 行程 序 , 命 令 行 格式 如 下 : 

./ Clanscan [输入 文件 路 径 ] 

[输入 文件 路 径 ] 指 需要 进行 病毒 扫描 的 文件 路 径 。 扫 描 结束 后 ,将 返回 扫描 结果 如 下 : 


root@ localhost:/tmp$clamscan malware.zip 
malware.zip: Worm.Mydoom.U FOUND 


Data scanned: 0.02 MB. 
Time: 0.024 sec(0m 0 s) 


14.3.2 编程 训练 设计 与 分 析 
ClamScan 程序 负责 完成 恶意 代码 检测 工作 ,检测 流程 如 图 14-7 所 示 。 
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输入 扫描 目标 读 取 病 毒 库 

| | 

根据 参数 选项 配置 |__| 初始 化 相应 扫描 

扫描 引擎 引擎 

1 

开始 扫描 并 匹配 

=  ， 
输出 扫描 结果 


图 14-7 ClamScan 恶意 代码 检测 流程 图 


1. 相关 数据 结构 


头 文件 ClamScan. h 中 定义 了 若干 重要 的 数据 结构 : 主要 用 于 定义 扫描 器 结构 ,匹配 器 
结构 ,不同 算法 参数 等 。 


// 扫 描 器 结构 

typedef struct ( 
const char **virname; /| 病毒 名 
unsigned long int scanned; /已 扫描 的 Block Sk 1Block= 188 
const struct cli matcher* root; /匹配 器 
const struct cl engine* engine; // 扫 描 引 擎 
unsigned long scansize; 
unsigned int options; // 扫 描 选 项 
unsigned int recursion; // 对 压缩 文件 的 递归 次 数 
unsigned int scannedfiles; // 扫 描 的 文件 数量 
unsigned int found possibly unwanted; 
struct cli donf * donf; /文件 类 型 设置 

} cli_ctx; 


struct cl engine ( 
uint32 t refoount; //reference counter 
uinti t sdb; 
uint32 t dbotions; 
uint32 t dbversicn[2]; 
uint tac only; 


uint32 t ac mindepth; //aho- Corasick 算 法 trie 树 的 最 小 深度 
uint32 t ac mexdepth; //#ho- Corasick 算 法 trie 树 的 最 大 深度 
char* trpdir; /| 病毒 库 临时 释放 文件 


uint32 t keeptnp; 


BB 
struct cl settings { 
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//Limits 

uint64 t maxscansize; // 在 扫描 压缩 文件 时 ,压缩 文件 的 最 大 文件 大 小 
uinté4 t maxfilesize; // 压 缩 包 中 ,可 以 扫描 文件 的 最 大 体积 

uint32 t maxreclevel; // 可 扫描 压缩 文件 的 最 大 压缩 层 数 

uint32 t maxfiles; // 可 扫描 压缩 包 中 最 大 的 文件 数量 


uint32 t min cc oant; 
uint32 t min ssn count; 

/匹配 器 

struct cli matcher** root; 

// 针 对 MD5 特 征 代码 类 型 的 B-M 算 法 匹配 器 
struct cli matcher* md5 hdb; 

/针对 PE Et MD5 特 征 码 类 型 的 B-M 算 法 匹配 器 
struct cli matcherx md5 mb; 

// 针 对 白 名 单 库 的 B-M 算 法 匹配 器 
struct cli matcher* md5 fp; 

/1/zip 文 件 

struct cli meta node* zip mlist; 

//FhR 

struct cli meta node* rar mlist; 

// 针 对 Phishing .pdb and .wdb 特征 库 正 则 表达 式 匹配 器 
struct regex matcher * whitelist matcher; 
struct regex matcher * daminlist matcher; 
struct phishcheck* phishcheck; 

// 动 态 配置 

struct cli donf * donf; 

/文件 类 型 定义 

struct cli ftype* ftypes; 

// 可 被 忽略 的 特征 代码 

struct cli ignored* ignored; 

/ER 类 

char* pua cats; 

// 内 存 池 

mpool t* menpool; 


uint3 tac only; // 只 用 zho- corasick 算 法 

uint32 t ac mindepth; //aho- Corasick 算 法 最 小 深度 

uint32 t ac mexdepth; / [Bho- Corasick 算 法 最 大 深度 

char* trpdir; // 病 毒 库 

uint32 t keeptmp; // 释 放 文件 

uint64 t maxscansize; // 在 扫描 压缩 文件 时 ,压缩 文件 的 最 大 文件 大 小 
Uint64 t maxfilesize; // 压 缩 包 中 ,可 以 扫描 文件 的 最 大 体积 

uint32 t mexreclevel; // 可 扫描 压缩 文件 的 最 大 压缩 层 数 


uint32 t maxfiles; // 可 扫描 压缩 包 中 最 大 的 文件 数量 
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uint32 tmin cc count; 
uint32 tmin ssn count; 

char* pua cats; 

H 

// 匹 配器 数据 结构 

struct cli matcher { 

/扩展 的 B-M 匹 配 算法 

uint8 t* km shift; 

struct cli km patt**km suffix; 

struct hashset md5 sizes hs; 

uint32 t* soff, soff len; 

uint3? t km patterns; 

/扩展 的 Aho- Corasick 匹配 算法 相关 变量 
uint32 t ac partsigs, ac nodes, ac patterns, ac lsigs; 
//ac partsigs : A-C 算 法 的 部 分 匹配 特征 值 数量 ; 
//ac_nodes: A-C 算 法 trie 树 的 节点 ; 
//ac_pattems: A-C 算 法 的 部 分 特征 值 数量 ; 
//ac lsigs: A-C 算 法 的 逻辑 特征 代码 数量 
struct cli ac lsig**ac lsigtable; 

//* ac root: A-C 算 法 trie 树 的 根 节点 ; 
// **ac nodetable: A-C 算 法 trie 树 的 节点 表 


//B-M 算 法 的 移动 位 数 
//B-M 算 法 的 特征 值 后 级 (好 后 级 原则 ) 


// 王 文件 的 区 段 偏 移 量 和 长 度 
//B-M 算 法 的 特征 值 的 数量 


//A-C 算 法 逻辑 表 


Struct cli ac node* ac root,**ac nodetable; 
struct cli ac patt**ac pattable; //n- C Wak FE GE (B6 
uint8 t ac mindepth, ac maxdepth; /ar-c 算 法 Trie 树 的 最 小 深度 , 最 大 深度 


// 最 大 特征 串 长 度 
// 是 否 只 用 zc 算法 进行 匹配 。0: 可 以 ,1: 不 可 以 


uintl6 t mexpatlen; 
uint8 t ac only; 
difdef UE MOOL 
mpool t* mempool; 
#endif 
//B-M 算 法 的 特征 串 节点 数据 结构 
struct cli km Fatt { 


unsigned char* pattern, * prefix; 
Cher * virneme, * offset; 

struct cli km patt * next; 
uintlé t length, prefix length; 


XS ME 

// 病 毒 名 称 , 特征 值 对 应 的 偏 移 量 
//B-M 算 法 特征 链表 中 下 一 个 对 象 节点 
I/R ERKE, MAKE 


uintlé t cnt; // 计 数 器 
unsigned char pattern0; // 特 征 串 第 一 个 字符 
uint8 t target; 

iH 

/As c 算 法 的 特征 串 节 点 数据 结构 


struct cli ac patt ( 


/| 特征 串 ,前 组 ,特征 串 长 度 , 前 缀 长 度 


uintl6 t* pattern, * prefix, length, prefix length; 


J; 
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uint32 t mindist, mexdist; 

uint32 t sigid; 

uint32 t lsigid[3]; 

uintl6 t ch[2]; 

Char * vimane, * offset; 

vold* custamdata; 

uintl6 t ch mindist[2]; 

uintl6 t ch maxdist [2]; 

uintlé t parts, partno, alt, alt pattern; 
struct cli ac alt**alttable; 

struct cli ac patt* next, * next same; 
uint8 t depth; 

uintl6 t rtype, type; 


2. 病毒 库 导 入 


/人 最短 距离 ,最 长 距离 
// 特 征 子 串 的 标号 
LAE SIUE B 891 S 


// 病 毒 名 称 , 偏 移 量 


// 自 定义 数据 
// 最 小 距离 


/| 转移 表 


为 了 实现 扫描 工作 ,程序 必须 在 初始 化 之 前 读 取 、 加 载 病 毒 库 。 该 工作 由 函数 cli_ 
loaddb 负责 完成 。 函 数 通 过 FILE * 文件 指针 读 取 病 毒 库 文件 ,并 按照 其 相关 格式 将 病毒 
库 信 息 载 入 内存。 


static int cli loeddb(FIIE * fs, struct cl engine * engine, unsigned int * signo, unsigned int options, 
struct cli doio* dbio, const char* dnare) 


t 


char bu£fer[FILEBUFF], * pt, * start; 
unsigned int line= 0, sigs-0; 

int ret-0; 

struct cli matcher* root; 

// 初 始 化 匹配 器 根 节点 

if((ret-cli initroots (engine, options))) 
retum ret; 

root= engine- > root [0]; 


while(cli dogets (buffer, FIIEBUFF, fs, dbio)) ( 


linet +; 
cli dxmp(buffer); 

pe strchr (puffer, '= 7); 
if('pt) ( 


cli ermsg ("Malformed pattern line &dn", line); 


ret-CL EMALETB; 
break; 

1 

start-buffer; 

* pt++=0; 


/获取 根 节点 


if(engine- ignored && cli dhkign engine > ignored, dbname, line, start)) 
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continue; 
if(* pc-- '- ')oantinue; 
// 将 获得 的 特征 值 节点 加 入 到 根 节点 所 在 链表 中 
if((ret-cli parse add(root, start, pt, 0, 0, NULL, 0, NULL, cpticns))) ( 
ret-CL EMALETB; 
breek; 
} 
sigst*; 
H 
if(!lirs) { 
cli ermsg ("Enpty database file\n"); 
retum CL FMALETB; 
} 
df(t) { 
cli errmsg ("Prcblem parsing database at line $d\n", line); 
retum ret; 


) 


函数 cli. parse add 用 于 在 程序 内 存 中 特征 值 库 里 添加 新 的 特征 值 信息 。 在 导入 病毒 
库 的 过 程 中 ,系统 解析 病毒 库 文件 ,从 中 提取 特征 值 ,并 通过 调用 该 函数 将 特征 值 导入 。 特 
征 值 添 加 函数 的 实现 如 下 : 


int cli_parse_add (struct cli matcher * root, const char * vimame, const char * hexsig, uintl6 t rtype, 
uintlé t type,const char* offset, uint8 t target, const uint32 tx lsigid unsigned int options) 
t 

struct cli km patt* km new; 

Char * pt, * hexcpy, * start, * n; 

int ret, asterisk- 0; 

unsigned int i, j, len, parts-0; 

int mindist-0, maxdist-0, error- 0; 


if(strer(hexsig, '{')) ( 

root-»ac partsigst + ; 

i£(! hexcpy=cli strdup(hexsig))) 
retum CL FMM; 

len-strlen(hexsig); 

for(i-0; i< len; i++) 
if(nexsigli]-- '('l|hexsig[i]== ' * ") 
partstt; 

if(parts) 
partstt; 

start- pt- hexcpy; 
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for(i-1; ic-parts; i++) { 
if(i !=perts) ( 
for(j-0; j«strlen(start); j++) { 
if(start[j EE 


if(stat[j]- '* ') ( 
asterisk- 1; 
pe startt j; 
break; 
} 
} 
* pt++=0; 
} 
/增加 A-c 匹 配 算法 的 特征 值 
if((ret- cli ac addsig(root, vimame, start, root- > ac partsigs, parts, i, rtype, type, 
mindist, maxdist, offset, lsigid, options))) ( 
cli ermsg("cli parse add(): Problem adding signature (1) .\n"); 
error- 1; 


if(strhr(t, '— ')) ( 
if(!cli isnumber (pt) || (mindist-mexdist-atoi (pt))< 0) ( 
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if((n-cli strtck(pt, 0, "- ")))( 
if(!cli isnumber (n) || (mindist-atoi (n))« 0) ( 
error-1; 
free(n) ; 
break; 
} 
free(n); 
) 
if((n-cli strtok(pt, 1, "-"))) ( 
if(!cli isnumber(n)|| mexdist=atoi(n))<0) ( 
error=1; 
free(n); 
break; 
) 
free(n); 
) 
if((-cli strtok (pt, 2, "- "))) (//strict check 
error-1; 
fre(n); 
break; 


) 
free (hexcpy) ; 
if(error) 
return CL EMALETE; 
) else if(strchr(exsig, '* ')) ( 
root- »ac partsigst +; 
len- strlen (hexsig) ; 
for(i-0; i< len; i++) 
if(exsigli]-- '* ') 
partst+; 
if(parts) 
parts; 
for(-1; i<=parts; i++) ( 
if((pp-cli strtok(hexsig, i- 1, "* "))-—NULL) ( 
cli ermsg ("Can't extract. part. $d of partial signature. Wn", i); 
retum CL FMALFTB; 
} 
if((ret= cli ac adisig (root, virname, pt, root- > ac partsigs, parts, i, rtype, type, 0, 0, 
offset, lsigid, options))) ( 
cli errmsg("cli parse add(): Problem adding signature (2) 4n"); 
free(pt); 
retum ret; 
} 
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free (gt) ; 

H 

} else if(roct-»ac only||strpbrk(hexsig, "? (")||typelllsigid) ( 

if((ret-cli ac addsig(root, vima, hexsig, 0, 0, 0, rtype, type, 0, 0, offset, lsigid, options))) ( 
cli ermeg("cli parse add(): Problem adiing signature (3). n"); 
retum ret; 

} 

) else { 

// 如 果 不 是 A-c 算 法 的 特征 值 或 初始 化 A-c 特 征 值 节点 失败 , 则 初始 化 B-M 算 法 的 特征 值 节点 
km new- (struct cli km patt* ) mpool calloc(root-»mempool, 1,sizeof (struct cli km patt)); 
if(!km new) 

retum CL FMM; 

Km new- >pattem= (unsigned char * ) cli mpool hex?str(root- »mempool, hexsig); 
df (!m new- »pattem) ( 

mpool_free(root- »mempool, km new); 

retum CL FMALFIB; 
p 
km new- > length- strlen (hexsig) /2; 
km new- > virname- cli mpool virname (root- » mempool, (char * ) virname, options & CL DB OFFICIAL); 
df (!m new- > virname) ( 

mpool free(root— »mempool, km new- > pattern) ; 

mpool free (root- »mempool, Hm new); 

return CL EMEM; 
H 
if(offset) ( 

km new-» offset-cli mpool strdip(root- >mempool, offset); 

if(!km new-» offset) ( 

mpool free (root- > mempool, km new- > pattern); 

mpool free(root- »mempool, km new- > virname); 

mpool free (root- »mempool, km new); 

return CL EMEM; 

H 
} 
km new- > target- target; 
df km new- > length > root- > maxpatlen) 

root- »mexpatlen- hm new- > length; 
// 将 特征 值 节点 加 入 到 B-M 匹 配 算法 的 特征 值 链表 中 
if((ret=cli km addpatt (root, km new))) ( 

cli errmsg("cli parse add(): Problem adding signature (4) .\n") ; 

mpool free (root— >menpool, km new- > pattern) ; 

mpool free(root- »mempool, km new- > virname); 

mpool free (root- »mempool, km new); 

retum ret; 
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retum CL SUCCESS; 


3. AC 特征 码 匹配 算法 初始 化 


AC 特征 码 匹 配 算法 的 初始 化 工作 由 函数 cli_ac_initdata 完成 。 函 数 工作 非常 简单 , 主 
要 是 从 事 分 配 相 关内 存 ,完成 参数 赋值 等 工作 。 


int cli ac initdata(struct cli ac data* data, uint32 t partsigs, uint32 t lsigs,uint8 t tracklen) 
t 
unsigned int i; 


if(!data) ( 

cli ermsg("cli ac init: data- - NUHIAn") ; 

return CL ENULLAFG; 

) 

data- > partsigs- partsigs; 

if(partsigs) ( 

data- »offmatrix- (int32 t***) cli calloc(partsigs, sizeof (int32 t**)); 

if(!data- > offmatrix) ( 
cli ermsg("cli ac init: Can't allocate memory for data- » offmatrixW") ; 
retum CL EMEM; 


data- > 1sigs- lsigs; 
ifüsigs) ( 
data- > 1sigcnt= (uint32 t**) cli malloc(lsigs* sizeof (uint32 t* )); 
if(!data-» lsigcnt) ( 
if(partsigs) 
free (data- > offmatrix); 
cli ermsg("cli ac init: Can't allocate memory for data- > 1sigcntAn") ; 
retum CL FMM; 
} 
data-» lsigont[0]- (uint32 tx ) cli calloc(lsigs* 64, sizeof (uint32 t)); 
if(!data- > 1sigent[0]) ( 
free (data- > 1sigant) ; 
if(partsigs) 
free (data- > offmatrix); 
cli ermeg("cli ac init: Can't allocate memory for data- > 1sigent [0] Nn") ; 
retum CL FMM; 
} 
for(i-1; i<lsigs; i++) 
data- > 1sigant [i ]= data- > 1sigent[0]*- 64 * i; 


retum CL SUCCESS; 
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4. AC 特征 码 匹 配 算法 匹配 查找 

AC 特征 码 匹配 算法 用 于 在 一 段 指 定 的 内 存 字 节 串 中 寻找 符合 条 件 的 子 串 。 其 使 用 的 
算法 即 为 第 14. 2 节 介 绍 的 Aho-Corasick 模式 匹配 算法 。 程 序 通过 调用 该 函数 实现 对 程序 
中 特征 码 的 定位 。 


inline static int ac findmatch (const unsigned char * buffer, uint32 t offset, uint32 t length, const 
struct cli ac patt* pattern, uint32 t* end) 


t 


uint32 t bp, match; 
uintlé t wc, i, j, altent-pattern- > alt pattern; 
struct cli ac alt* alt; 


if((offset* pattern- > length > length) || (pattern- > prefix length» offset)) 
retum 0; 
bp= offset pattem- > depth; 
match= 1; 
for(i-pattern- > depth; i< pattem- > length && bp< length; i++) ( 
AC MTH CHAR (pattern- > pattern [i] ,buffer [pp] ) 
df (!match) 
retum 0; 
btt; 
H 
* end- bp; 
if(!(pattern-» ch[1] & CLI MATCH IGNORE) ( 
bp * - pattern- > ch mindist[1]; 
for(i-pattern- > ch mindist[1]; i«- pattern- > ch mexdist[1]; i++) ( 
if (tp >= length) 
retum 0; 
matdr 1; 
AC MATCH CHAR (pattern- > ch[1], buffer [po]) 
if(match) 
break; 
btt; 


if (patter > prefix) ( 

altcnt- 0; 

bp- offset- pattem- » prefix length; 

mtde 1; 

for(i-0; i«pattern- » prefix length; i++) { 
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AC MATCH CHAR Pattern >prefix[i],buffer[kp]); 
if(tmatdh) 
retum 0; 
bett; 
} 
} 
if(!(pattern-» ch[0] & CLI MATCH IGNORE) ( 
bp- offset- pattem- » prefix length; 
if(pattern- > ch mindist[0]* (uint32 t) 1» bp) 
retum 0; 
bp- - pattern- > ch mindist [0]+ 1; 
for(i-pattern- > ch mindist[0]; i<=pattem->ch mexdist[0]; i++) ( 
metd 1; 
AC MATCH CHAR (pattern- > ch[0] ,buffer [bo]) ; 
df (match) 


} 

if(tmatch) 
retum 0; 

H 

retum 1; 


5. A-C 算法 的 扫描 匹配 函数 


函数 cli ac scanbuff 用 于 实现 恶意 代码 的 甄别 。 系 统 将 待 扫描 文件 读 人 内 存 , 并 将 文 
件 的 内 存 映 像 通过 第 一 个 参数 buffer 传递 给 该 函数 ,该 函数 遍历 初始 化 时 读 入 的 若干 特征 
值 信息 ,并 依次 对 该 文件 的 内 存 映 像 进 行 匹配 尝试 ,进而 判断 该 文件 究竟 是 否 包 含 恶 意 代 
码 ,并 将 判断 结果 返回 调用 者 。 


int cli ac scenbuff(const unsigned char * buffer,uint3? t length, const char**virname, vodd* * custcmjata, 
struct cli ac result**res,gonst struct cli matcher* root,struct cli ac data* mdata,uint32 t offset,cli 
file t ftype,int fd,struct cli matched type** ftoffset,unsigned int mode,const cli ctx* ctx) 

1 


struct cli ac node* current; 

struct cli ac patt* patt, * pt; 
uint32 t i,bp,realoff,matchend; 

uintl6 t j; 

int32 t**offmatrix; 

uint8 t found; 

struct cli target info info; 

int type- CL CLEAN; 


第 14 章 基于 特征 码 的 恶意 代码 检测 系统 的 设计 与 实现 


struct cli ac result * newres; 


if(!root-»ac root) 
retum CL CIEAN; 
Af(!mdata) ( 
cli ermeg("cli ac scanbuff: mdata-— NULIAn") ; 
retum CL ENULLARG; 
) 
memset (&info, 0, sizeof (info)) ; 
current- root-»ac root; 
for(i-0;i«length;it*) { 
// 当 前 节点 是 否 是 叶子 节点 ,如 果 是 则 转向 失败 转移 函数 
if(IS IEAF (current) ) 
current- current- > fail; 


current- current- > trans [buffer [1]] 
/从 A-c 自 动机 中 获得 最 终 的 特征 值 
3f(IS FINAL(current)) ( 
patt- current- » list; 
while(patt) ( 
bp- i+ l-patt- > depth; 
/ PPAR T 5 VG RC 
if(ac findmatch(buffer,bp, length, patt, &atchend)) ( 
pe-patt; 
while(pt) ( 
3£( (gt— > type && ! (mode & AC SON FT) || (!pt— > type && ! (mode & AC SON VIR))) ( 
pt-pt-»next same; 
continue; 
) 
realoff-offsettkp- pt- » prefix length; 
if(pt-» offset && (!pt- » sigid|| pt- » partno- - 1)) { 
if(!cli validatesig(ftype,pt- > offset, realoff, &info, fd,pt- > virname)) ( 
pt-pt-»next same; 
cantine; 
) 
) 
// 如 果 存 在 sigid, 则 pt 是 部 分 特征 值 
if(pt-»sigid) ( 
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if(pt-»partno!-1 && (tmdata- > offimatrix [pt- > sigid- 1] || Imdata- > offmatrix[pt- > 
sigid 1] [pt— > partno- 2] [01)) € 
pt-pt-»next same; 
cantine; 
$ 
if ('mata- > offmatrix[pt- > sigid- 1]) f 
mita > offretrix[pc- > sigid- 1]-cli malloc(pc- » parts * sloecf nt t* )); 
1f(Imdata- > offretrix[pt- > sigid- 1]) ( 
cli ermsg("cli ac scanbuff: Can't allocate memory for mdata- > offmatrix[$u]V 
n",pt-> sigid- 1); 
Af(nfo.exeinfo.section) 
free (info.exeinfo.section); 
retum CL FMM; 
) 
mdata- > offmatrix[pt- > sigid- 1] [0]= cli malloc(pt- > parts * (CLI DEFAULT AC - 
TRACKIEN+ 1) * sizeof (int32 t)); 
if(!mcata- > offmatrix[pt- > sigid- 1] [0]) ( 
cli ermsg("cli ac scanbuff: Can't allocate memory for mita- > offmatrix[$u] [0] 
An", pt- > sigid- 1); 
free (mcata- > offmatrix[pt- > sigid- 1]); 
mata- > offmatrix[pt- > sigid- 1]- NULL; 
if(info.exeinfo.section) 
free (info.exeinfo.section); 
return CL EMEM; 
) 
memset (mdata- > offmatrix[pt- > sigid- 1][0],- lopt- > parts * (CLI DEFAULT AC TRACKIEN 
*1)* sizeof (int32 t)); 
mata- > offmatrix [pt- > sigid- 1] [0] [0]= 0; 
for(j-1;j«pt-»parts;j* 4 ) ( 
maata- > offinatrix [pt- > sigid- 1] [j]= mata- > offimtrix [pt- > sigid- 1] [0]+ j * 
(CLI DEFAULT AC TERCKLEN 1); 
maata- > offmatrix[pt- > sigid- 1] [j] [0]- 0; 
H 
) 
offmatrix-mdata- > offmatrix[pt- > sigid- 1]; 
if(pt-»partm !-1) ( 
found- 0; 
for(j-1;j«- CLI DEFAULT AC TRACKIEN && offmatrix[pt- > partno- 2] [j] !=-1;j++) { 
found-1; 
if(pt- »maxdist) 
if (realoff- offmatrix[pt- > partno- 2] [j] » pt- » mexdist) 
found- 0; 
if (found ss pt- » mindist) 
if (realoff- offmatrix[pt- > partno- 2] [3]< pt- > mindist) 
found- 0; 
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if (fam) 


if(pt-»partno-- 1|| (found && (pt— >partno !=pt- >parts))) { 

offmatrix[pt->partno- 1] [0] %+=CLI_DEFAULT AC TEACKLEN; 

offmatrix[pt— > partno- 1] [0]++ ; 

offinatrix[pt- > partno- 1] [offmatrix[pt- > partno- 1] [0] ]= offset+ matchend; 

if(pt-»partno--1) // 保 存 第 一 部 分 特征 值 的 偏 移 量 
offratrix[pt- > parts- 1] [offmatrix[pt- > partno- 1] [0]]= realoff; 

) else if(found && pt- » partno- - pt- » parts) { 

LAPIE F ME (B P dg fr 0028 0 


if(pc-»tye) ( 


/收集 匹配 结果 


if(pt-»type--CL TYFE IGNORED && (!pt- > rtypel| ftype- — pt- > rtype)) { 
if(nfo.exeinfo.section) 
free (info.exeinfo.section); 
retum CL TYPE IGNORED; 
} 
if((pt-»type > typel|pt- > type » — CL TYPE SEX||pt-» type==CL TYPE MSEXE) && 
(!pt- > rtypell ftype==pt- > rtype)) { 
cli cbgnsg ("Matched signature for file type &s Wn", pc- > virname); 
type- pt- > type; 
if(ftoffset && (!* ftoffset|| (* ftoffset)- > cnt< MIX EMBEDED OBJ||type- - CL _ 
TYPE ZIPSEX) && (type >=CL TYE SEXI| ((ftype==CL TYPE MSEXE|| ftype- — CL TYFE 
 ZIP||ftype-- CL TYPE MSOLE2) && type- - CL TYFE MSEXE))) ( 
for(j-1;j«- CLI IEFAULT AC TEACKIEN && offmatrix[0][j] !=-1;3++) { 
if(ac acdtype (ftoffset, type, offmatrix[pt- > parts- 1] [5], ct)) ( 
if(info.exeinfo.section) 
free (info.exeinfo.section); 
return CL EMEM; 


) 
memset(offmatrix[0],- lppt- »parts * (CLI DEFAULT AC TRACKIEN+ 1) * sizeof (int32 
$); 
for (j=0;j<pt->parts;jt+ * ) 
offmatrix[j] [0]= 0; 
t 
) else ( // 如 果 没 有 规定 类 型 ,进入 逻辑 特征 值 匹配 状态 
if(pt-> lsigid[0]) { 
mdata- > 1sigent [pt- > 1sigid[1]] [pt- > 1sigid[2]]* + ; 
pt-pt- > next; 
continue; 
} 
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if(res) { 
rEwres- (struct cli ac result * ) mllcc(sizeof (struct cli ac result)); 
if(tnewres) ( 
if(info.exeinfo.section) 
free (info.exeinfo.section); 
retum CL PEM; 
} 
newres- > virname- pt- > vimane; 
newres- > custamdata- pt- > custamata; 
newres- »next- * res; 
* res- newres; 
pe-pt-» next; 
continue; 
) else ( 
if (virneme) 
* virneme= pt- > virname; 
if (custcmdata) 
* custamdata- pt- > custcmdata; 
if(info.exeinfo.section) 
free (info.exeinfo.section); 
return CL VIRUS; 
) 
) 
) 
} else { // 如 果 是 旧 格式 的 特征 值 
if(pc-»tye) { 
if(pt-»type-- CL TYE IGNORED && (!pt- > rtype|| ftype- ^ pt- » rtype)) ( 
if(nfo.exeinfo.section) 
free (info.exeinfo.section); 
retum CL TYPE IGNORED; 
) 
df ((pt- > type > typel|pt- > type >=CL TYPE SEX||pt-» type- - CL TYPE MSEXE) && (!pt 
— > rtypell ftype- - pt- > rtype)) { 
cli dbgnsg("Matched signature for file type $s at Su\n",pt- > virmame, realoff) ; 
type-pt- > type; 
if(ftoffset && (!* ftoffset|| (* ftoffset)- > cnt« MAX EMEEIIED CBJ||type- - CL _ 
TYPE ZIPSEX) && (type >=CL TYPE SFX|| ((£type- — CL TYPE MSEXE|| ftype- — CL TYEE 
—ZIP|| ftype- - CL TYPE MSOF?) && type--CL TYPE MSEXE)) ) ( 
if(ac addtype (ftoffset, type, realoff,ctx)) ( 
if(nfo.exeinfo.section) 
free (info.exeinfo.section); 
retum CL EMEM; 


第 14 章 基于 特征 码 的 恶意 代码 检测 系统 的 设计 与 实现 


} els { 

if(pt-> lsigid[0]) ( 
mdata- > 1sigent [pt— > 1sigid[1]] [pt- > 1sigid[2]]+ + ; 
pt=pt->next; 
continue; 

3 

if(res) ( 


næres (struct cli ac result* ) malloc(sizeof (struct cli ac result)); 


Af(!newres) ( 
if(nfo.exeinfo.section) 
free (info.exeinfo.section); 

retum CL EMEM; 
H 
newres- > virname- pt- > virname; 
newres- > custamdata- pt- > custamdata; 
newres- »next- * res; 

* res- newres; 
pt-pt- » next; 
continue; 

) else ( 

if(virmame) 

* vimame- pt- > virname; 
if(custemdata) 

* custamdata- pt- > custamdata; 
if(nfo.exeinfo.section) 
free (info.exeinfo.section); 
retum CL VIRUS; 


df (info.exeinfo.section) 
free (info.exeinfo.section); 
retum(mode & AC SCAN FT) ? type : CL CIEAN; 


6. B-M 算法 的 扫描 匹配 函数 
函数 cli_bm_scanbuff 用 于 使 用 B-M 算法 实现 文件 恶意 代码 甄别 。 


该 函数 与 函数 
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cli ac. scanbuff 的 功能 基本 相同 ,其 主要 区 别 是 该 函数 使 用 Boyer-Moore 算法 实现 特征 值 
匹配 运算 实现 特征 值 定位 。 


int cli km scerbuff (const unsigned char * buffer, uint32 t length, const dhar**virname, const struct cli - 
matcher* root, uint32 t offset, cli file t ftype, int fd) 
t 

uint% ti, j, off; 

uint8 t found, pchain, shift; 

uint16 t idx, idxchk; 

struct cli hm patt* p; 

const unsigned char * kp, * pt; 

unsigned char prefix; 

struct cli target info info; 


if(Ircot|| !root— »km shift) 
return CL CIEZN; 
df (length< EM MIN IENGIH) 
return CL CIEZN; 
memset (&info, 0, sizeof (info)); 
or (i= EM MIN IENGIH- EM BLOCK SIZE; i< length- EM BIOCK SIZE+ 1; ) { 
idx- HASH (puffer[i], buffer[i* 1], buffer[it2]); 
shift= root- >km shift[idx]; 
if(shift-- 0) ( 
// BE nb DC EUR E K BE P9 FH FH T WU #8 ECT 
prefix-buffer[i-EM MIN IENGTH*EM BLOCK SIZE]; 
peroot-»km suffix[idk]; 
// 从 B-M 算 法 特征 值 链表 中 取出 p 进 行 比 对 
phair 0; 
while(p) ( 
if (œ > Pattern0!= prefix) ( 
if (pchain) 
break; 
Pp > next; 
continue; 
) else piain- 1; 
off-i-EM MIN INGIH EM BLOCK SIZE; 
kp-buffert off; 


df ((off+ p- > length > length) || (p- » prefix length » off)) ( 
p-p-»next; 
continue; 

H 

idxchk-MIN (p- > length, length- off)— 1; 

if (idxchk) ( 

/做 一 次 转移 后 ,查找 是 否 匹配 
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if (([idxchk] !=p- » pattern [idxchk]) || kp[idxchk / 2] !=p- >pattern[idxchk / 2])) ( 
p-p-»next; 
continue; 
} 
} 
if(p-»prefix length) { 
off--p-» prefix length; /转移 长 度 为 特征 串 前 缀 长 度 
bp--p-»prefix length; 
pe-p-» prefix; 
)else ( 
pt-p-»pattem; 
) 
found-1; 
for(j-0; j«p- » length* p- » prefix length && off< length; j++, offt+) ( 
if [j] '=pt[j]) { 
/ PEL 8 VU HRF j 
found- 0; 
break; 
} 
} 
if(found sg p-> length* p- » prefix length==3) ( 
// 如 果 完 全 匹配 
if(p-»offset) { 
/获得 文件 偏 移 量 
off-offsetti-p-»prefix length - (EM MIN IENGTH EM BLOCK. SIZE); 
if(!cli validatesig(ftype, p- » offset, off, &info, fd, p- » virname)) ( 
/验证 特征 值 ,同时 获得 病毒 名 称 
p-p-»next; 
continue; 
H 
$ 
if vima) 
* virname- p- > virname; 
if(ünfo.exeinfo.section) 
free (info.exeinfo.section); 
retum CL VIRUS; 


if(nfo.exeinfo.section) 
free (info.exeinfo.section) ; 
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retum CL CIEZN; 


14.4 扩展 与 提高 


14.4.1 使 用 Clam AntiVirus 扫描 邮件 


Clam AntiVirus 作为 Linux 平 台 下 重要 的 病毒 检测 工具 ,得 到 了 很 多 第 三 方 软件 的 支 
持 。 下 面 介绍 一 种 邮件 代理 网 关 p3scan 与 Clam AntiVirus 的 组 合 配 置 方 法 。 
CD 安装 编译 Clam AntiVirus 后 ,配置 /etc/clamd. conf 文件 如 下 : 


IcgFile/var/log/clamav/clamd.log 
IogFileMaxSize 0 

IogTrime yes 
PidFile/var/run/clamav/clamd.pid 
TenporaryDi rectory/dev/stm. 
DatabaseDi rectory/var/lib/clamav 
FixStaleSocket yes 

TCPSocket 3310 

TCERGtir 127.0.0.1 


ArchiveMexRecursion 10 
ArchiveMaxCampressionFatio 300 
ArchiveBlockEncrypted no 
ArchiveBlockMax yes 
ClamukcMexFileSize 64M 

(2) 启动 clamd: 


/etc/rc.d/init.d/clamd start 


(3) 安装 编译 p3scan 后 ,配置 p3scan 
BUS / etc/ p3scan/p3scan. conf 如 下 ; 


user- root 


scannertype- clamd 
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scanner- 127.0.0.1:3310 
virusregexp- .* : (.* ) FOUND 
timecut- 90 

footer- /usr/bin/clamdscan- V 


为 原 有 邮件 模板 创建 一 个 连接 : 
1n— s p3scan- en -mail p3scan.mail 
(4) 启动 p3scan: 
/etc/rc.d/init.d/p3scan start 

(5) 设置 iptables: 


设置 iptables 规则 ,把 所 有 到 SMTP(25),POP3(110) 的 流量 重 定向 到 p3scan 的 端口 
8110 E; 


iptables- t nat- A PREFOUTING- p tcp- m multiport - -dport 25,110- j REDIRECT- - to- port 8110 


14.4.2. 基于 可 信 计 算 技术 的 恶意 代码 主动 防御 技术 


如 果 信 息 系统 中 每 一 个 使 用 者 都 是 经 过 认证 和 授权 的 ,其 操作 都 是 符合 安全 要 求 的 , 那 
么 就 不 会 产生 人 为 的 攻击 性 事故 ,就 能 保证 整个 信息 系统 的 安全 。 这 是 不 需要 证 明 的 公理 ， 
是 信息 系统 安全 所 追求 的 目标 。 


1. 当前 信息 安全 系统 存在 的 问题 


当前 ,大 部 分 信息 安全 系统 主要 由 防火 墙 \ 入 侵 检测 和 病毒 防范 等 组 成 。 这 些 安全 手段 
是 从 互联 网 中 共享 信息 服务 和 电子 商务 的 平等 交易 等 的 安全 需求 中 假定 而 来 的 ,其 很 重要 
的 一 个 前 提 是 用 户 不 确定 ,没有 一 个 明确 的 边界 。 因 此 常规 的 安全 手段 只 能 是 以 共享 信息 
资源 为 中 心 ,在 外 围 对 非法 用 户 和 越权 访问 进行 封 堵 ,以 达到 防止 外 部 攻击 的 目的 ,而 对 共 
享 源 的 访问 者 源 端 不 加 控制 ,加 之 操作 系统 的 不 安全 导致 应 用 系统 的 各 种 漏洞 层出不穷 ,无 
法 从 根本 上 解决 。 随 着 恶意 用 户 的 手段 越 来 越 高 明 ,防护 者 只 能 把 防火 墙 越 砌 越 高 人 侵 检 
测 越 做 越 复杂 、 恶 意 代码 库 越 做 越 大 。 误 报 率 也 随 之 增多 ,使 得 安全 的 投入 不 断 增 加 ,维护 
与 管理 变 得 更 加 复杂 和 难以 实施 ,信息 系统 的 使 用 效率 大 大 降低 。 反 思 上 述 的 做 法 为 老 三 
FE. 堵 漏洞 、 作 高 墙 、 防 外 攻 。 其 结果 是 防不胜防 。 产 生 这 种 局 面 的 主要 原因 是 不 去 控制 发 
生 不 安全 问题 的 根源 ,而 在 外 围 进 行 封 堵 。 事 实 上 ,所 有 的 人 侵 攻 击 都 是 从 计算 机 终端 上 发 
起 的 ,黑客 利用 被 攻击 系统 的 漏洞 窃取 超级 用 户 权限 ,肆意 进行 破坏 。 注 入 病毒 也 是 从 终端 
发 起 的 ,病毒 程序 利用 计算 机 操作 系统 对 执行 代码 不 检查 一 致 性 的 弱点 ,将 病毒 代码 嵌入 到 
执行 代码 程序 ,实现 病毒 的 传播 。 更 为 严重 的 是 对 合法 的 用 户 没有 进行 严格 的 访问 控制 ,可 
以 进行 越权 访问 ,造成 不 安全 事故 。 其 实现 在 的 不 安全 问题 都 是 PC 结构 和 操作 系统 不 安 
全 引起 的 。 如 果 从 终端 操作 平台 实施 高 等 级 防范 ,这 些 不 安全 因素 将 从 终端 源头 被 控制 。 
这 种 情况 在 工作 流程 相对 固定 的 生产 系统 显得 更 为 重要 而 可 行 。 以 我 国电 子 政务 网 为 例 ， 
由 政务 内 网 和 政务 外 网 两 部 分 组 成 。 政 务 内 网 是 涉 密 网 ,处 理 涉及 国家 秘密 的 事务 。 政 务 
外 网 是 非 涉 密 网 ,是 政府 的 业务 专 网 ,主要 运营 政府 部 门面 向 社会 的 专业 性 服务 和 不 需要 在 
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内 网 运行 的 业务 。 政 务 内 网 与 政务 外 网 物理 隔离 ,政务 外 网 与 互联 网 逻辑 隔离 。 在 电子 政 
务 的 内 外 网 中 ,要 处 理 的 工作 流程 都 是 预先 设计 好 的 ,操作 使 用 的 角色 是 确定 的 ,应 用 范围 
和 边界 都 是 明确 的 。 这 类 工作 流程 相对 固定 的 生产 系统 与 互联 网 是 有 隔离 措施 的 ,外 部 网 
络 的 用 户 很 难 侵入 到 内 部 网 络 。 据 2002 年 美国 FBI 统计 ,83% 的 信息 安全 事故 为 内 部 人 员 
或 内 外 勾结 所 为 ,而 且 呈 上 升 趋势 。 因 此 应 该 以 防 内 为 主 \ 内 外 兼 防 、 狠 抓 终端 源头 安全 的 
模式 ,构筑 全 面 高 效 的 安全 防护 系统 。 应 该 追 源头 、 练 内 功 、 控 使 用 、 防 内 患 , 积 极 防御 。 


2. 可 信 计 算 技 术 


近年 来 ,终端 安全 的 思想 正在 逐渐 被 人 们 所 重视 ,对 其 研究 也 备 受 关注 。 在 此 背景 下 ， 
T 1999 年 ,包括 HP、Intel、Microsoft、IBM 等 在 内 的 业界 几 家 大 公司 成 立 了 可 信 计 算 平 台 
联盟 (Trusted Computing Platform Alliance, TCPA), 并 于 2003 年 更 名 为 可 信 计 算 组 织 
(Trusted Computing Group, TCG), TCG 提出 的 可 信 计 算 (Trusted Computing. TC) 概 
念 , 其 思路 就 是 从 终端 安全 人手 ,定义 未 来 终端 上 的 一 种 可 信 计 算 环境 ,通过 建立 这 种 可 信 
计算 环境 来 提供 各 种 安全 操作 功能 ,达到 提高 终端 安全 性 的 目的 。 
可 信 计 算 尽 管 是 以 一 种 工业 规范 的 形式 提出 ,但 其 思想 却 具 有 普遍 而 又 深远 的 意义 , 实 
际 上 它 是 对 安全 问题 的 本 质 回 归 , 使 人 们 将 解决 信息 安全 问题 的 思路 转移 到 解决 终端 安全 
问题 上 来 。 
可 信 计 算 平台 是 系统 安全 的 必要 条 件 (图 14-8 介绍 了 可 信 计 算 平台 通用 结构 )。 可 信 
计算 平台 基于 可 信 平 台 模块 (TPM) (图 14-9 介绍 了 TPM 的 内 部 结构 ), 以 密码 技术 为 支 
持 、 安 全 操作 系统 为 核心 。 在 通用 计算 机 功能 的 基础 上 ,赋予 计算 机 开机 过 程 中 的 身份 认 
证 .系统 资源 完整 性 校 验 及 数字 签名 /验证 ,数字 加 /解密 、 外 部 设备 的 安全 控制 和 日 志 审计 
等 可 信 平 台 的 安全 功能 。 可 广泛 用 于 军队 公安、 安全 等 涉 密 机 关 以 及 对 信息 安全 敏感 的 普 
通商 业 用 户 ,如 金融, 电信、 电力 等 行业 ,有 效 防 御 来 自 外 部 和 内 部 人 员 的 泄密 和 恶意 破坏 行 
为 ,特别 是 对 专用 网 ,防止 内 外 勾结 攻击 显得 更 为 重要 。 

可 信 计 算 平台 具有 以 下 几 方 面 功 能 : 可 以 确保 用 户 唯一 身份 .权限 ,工作 空间 的 完整 性 
和 可 用 性 ;可 以 确保 存储 、 处 理 \ 传 输 的 机 密 性 与 完整 性 ;确保 硬件 环境 配置 ,操作 系统 内 核 、 
服务 及 应 用 程序 的 完整 性 ;确保 密 钥 操作 和 存储 的 安全 ;确保 系统 具有 免疫 能 力 , 从 根本 上 
阻止 病毒 和 黑客 等 软件 攻击 。 
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图 14-8 可 信 计 算 平 台 通用 结构 
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图 14-9 TPM 的 内 部 结构 
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